Technologiczny gigant pochwalił się kolejnym, eksperymentalnym sposobem wykorzystania sztucznej inteligencji. Google VLOGGER to generator wideo, który w oparciu o jedno zdjęcie oraz próbkę audio jest w stanie stworzyć bliski realistycznemu film z podkładem dźwiękowym.
Rozwój AI oczami Google
Google intensywnie angażuje się w rozwój sztucznej inteligencji, wdrażając ją do wielu aspektów naszego życia. Modele i narzędzia AI, takie jak np. Gemini, mogą być już wykorzystywane do codziennej pracy, nauki i rozrywki. Na tym jednak nie koniec. Tym razem sekcja Badaczy Google opracowała nowy system AI, który tworzy film „ożywiając” zaledwie jedno zdjęcie.
Mowa tutaj o narzędziu VLOGGER, czyli generatorze wideo. Technologia pozwala na opracowanie względnie realistycznego klipu w oparciu o jedną grafikę, przedstawiającą daną osobę. Sztuczna inteligencja samodzielnie przetworzy dane zdjęcie oraz plik audio, wręcz „ożywiając” danego człowieka. Mowa tutaj zarówno o dopasowaniu ruchu ust, jak i oczu czy głowy oraz ewentualnej gestykulacji.
Do działania generatora wykorzystywany jest model dyfuzji ruchu człowieka na ruch w trójwymiarze oraz architektura oparta o najnowsze modele dyfuzyjne, przetwarzające tekst na obraz. Jak twierdzą autorzy, metoda ta nie potrzebuje szkolenia ani nie wykorzystuje kadrowania czy wykrywania twarzy, tylko od razu generuje całość obrazu wraz z tłem.
VLOGGER pozwoli edytować nagrania
Poza samą twarzą i głową Google generuje także gestykulację dłońmi. Filmy mogą charakteryzować się różnorodnością, co oznacza, że sztuczna inteligencja może opracować kilka odmiennych wersji klipów, powstałych w oparciu o te same dane źródłowe.
Technologia VLOGGER umożliwia również wprowadzanie edycji do przesłanych filmów w oparciu o monit tekstowy oraz generowanie tłumaczenia dla istniejących nagrań, dostosowując przy tym ruch ust i twarzy.
Choć technologia ta może trochę przerażać i w przyszłości stać się doskonałym sposobem na generowanie filmów z prawdziwymi osobami, co pozwoli na tworzenie deepfake’ów, nie jest jeszcze doskonała.
Na pierwszy rzut oka, w większości przykładów, można rozpoznać nienaturalne ruchy czy mało realistyczne wygładzenia twarzy. Jeśli jednak technologia zostanie poprawiona i ulepszona, może stać się groźną metodą na wprowadzanie w błąd.