Generator wideo AI VLOGGER (źródło: Google)
Generator wideo AI VLOGGER (źródło: Google)

Nowy system AI Google ożywia zdjęcia ludzi i tworzy realistyczne filmy

Technologiczny gigant pochwalił się kolejnym, eksperymentalnym sposobem wykorzystania sztucznej inteligencji. Google VLOGGER to generator wideo, który w oparciu o jedno zdjęcie oraz próbkę audio jest w stanie stworzyć bliski realistycznemu film z podkładem dźwiękowym.

Rozwój AI oczami Google

Google intensywnie angażuje się w rozwój sztucznej inteligencji, wdrażając ją do wielu aspektów naszego życia. Modele i narzędzia AI, takie jak np. Gemini, mogą być już wykorzystywane do codziennej pracy, nauki i rozrywki. Na tym jednak nie koniec. Tym razem sekcja Badaczy Google opracowała nowy system AI, który tworzy film „ożywiając” zaledwie jedno zdjęcie.

Mowa tutaj o narzędziu VLOGGER, czyli generatorze wideo. Technologia pozwala na opracowanie względnie realistycznego klipu w oparciu o jedną grafikę, przedstawiającą daną osobę. Sztuczna inteligencja samodzielnie przetworzy dane zdjęcie oraz plik audio, wręcz „ożywiając” danego człowieka. Mowa tutaj zarówno o dopasowaniu ruchu ust, jak i oczu czy głowy oraz ewentualnej gestykulacji.

Generator wideo AI VLOGGER (źródło: Google)
Generator wideo AI VLOGGER (źródło: Google)

Do działania generatora wykorzystywany jest model dyfuzji ruchu człowieka na ruch w trójwymiarze oraz architektura oparta o najnowsze modele dyfuzyjne, przetwarzające tekst na obraz. Jak twierdzą autorzy, metoda ta nie potrzebuje szkolenia ani nie wykorzystuje kadrowania czy wykrywania twarzy, tylko od razu generuje całość obrazu wraz z tłem.

VLOGGER pozwoli edytować nagrania

Poza samą twarzą i głową Google generuje także gestykulację dłońmi. Filmy mogą charakteryzować się różnorodnością, co oznacza, że sztuczna inteligencja może opracować kilka odmiennych wersji klipów, powstałych w oparciu o te same dane źródłowe.

Technologia VLOGGER umożliwia również wprowadzanie edycji do przesłanych filmów w oparciu o monit tekstowy oraz generowanie tłumaczenia dla istniejących nagrań, dostosowując przy tym ruch ust i twarzy.

Choć technologia ta może trochę przerażać i w przyszłości stać się doskonałym sposobem na generowanie filmów z prawdziwymi osobami, co pozwoli na tworzenie deepfake’ów, nie jest jeszcze doskonała.

Na pierwszy rzut oka, w większości przykładów, można rozpoznać nienaturalne ruchy czy mało realistyczne wygładzenia twarzy. Jeśli jednak technologia zostanie poprawiona i ulepszona, może stać się groźną metodą na wprowadzanie w błąd.