Generator wideo AI VLOGGER (źródło: Google)

Generator wideo AI VLOGGER (źródło: Google)

·2 min czytania

Nowy system AI Google ożywia zdjęcia ludzi i tworzy realistyczne filmy

Natalia Kania-Kuc·22 marca 2024

Strona główna

Technologiczny gigant pochwalił się kolejnym, eksperymentalnym sposobem wykorzystania sztucznej inteligencji. Google VLOGGER to generator wideo, który w oparciu o jedno zdjęcie oraz próbkę audio jest w stanie stworzyć bliski realistycznemu film z podkładem dźwiękowym.

Rozwój AI oczami Google

Google intensywnie angażuje się w rozwój sztucznej inteligencji, wdrażając ją do wielu aspektów naszego życia. Modele i narzędzia AI, takie jak np. Gemini, mogą być już wykorzystywane do codziennej pracy, nauki i rozrywki. Na tym jednak nie koniec. Tym razem sekcja Badaczy Google opracowała nowy system AI, który tworzy film „ożywiając” zaledwie jedno zdjęcie.

Mowa tutaj o narzędziu VLOGGER, czyli generatorze wideo. Technologia pozwala na opracowanie względnie realistycznego klipu w oparciu o jedną grafikę, przedstawiającą daną osobę. Sztuczna inteligencja samodzielnie przetworzy dane zdjęcie oraz plik audio, wręcz „ożywiając” danego człowieka. Mowa tutaj zarówno o dopasowaniu ruchu ust, jak i oczu czy głowy oraz ewentualnej gestykulacji.

Generator wideo AI VLOGGER (źródło: Google)

Do działania generatora wykorzystywany jest model dyfuzji ruchu człowieka na ruch w trójwymiarze oraz architektura oparta o najnowsze modele dyfuzyjne, przetwarzające tekst na obraz. Jak twierdzą autorzy, metoda ta nie potrzebuje szkolenia ani nie wykorzystuje kadrowania czy wykrywania twarzy, tylko od razu generuje całość obrazu wraz z tłem.

VLOGGER pozwoli edytować nagrania

Poza samą twarzą i głową Google generuje także gestykulację dłońmi. Filmy mogą charakteryzować się różnorodnością, co oznacza, że sztuczna inteligencja może opracować kilka odmiennych wersji klipów, powstałych w oparciu o te same dane źródłowe.

Technologia VLOGGER umożliwia również wprowadzanie edycji do przesłanych filmów w oparciu o monit tekstowy oraz generowanie tłumaczenia dla istniejących nagrań, dostosowując przy tym ruch ust i twarzy.

Choć technologia ta może trochę przerażać i w przyszłości stać się doskonałym sposobem na generowanie filmów z prawdziwymi osobami, co pozwoli na tworzenie deepfake’ów, nie jest jeszcze doskonała.

Na pierwszy rzut oka, w większości przykładów, można rozpoznać nienaturalne ruchy czy mało realistyczne wygładzenia twarzy. Jeśli jednak technologia zostanie poprawiona i ulepszona, może stać się groźną metodą na wprowadzanie w błąd.

Zobacz również

Generator wideo Pika

Generator wideo z efektami dźwiękowymi. Już nie trzeba przeszukiwać baz audio

Model Gemini 1.0 (źródło: Google)

Coś poszło „bardzo nie tak” w Gemini. Dlaczego Google wycofało swój generator obrazów AI?

Nowy model dla generatorów obrazów Stable Cascade (źródło: Stability AI)

Nowy model AI dla generatorów obrazów. Stable Cascade przebija Stable Diffusion

Twórcy ChatGPT opracowali nowy model AI Sora

Twórcy ChatGPT pokazali zaawansowany generator wideo. Sora tworzy niezwykle realistyczne treści