W erze cyfrowej, gdzie interakcje wirtualne stają się coraz bardziej powszechne, rośnie zapotrzebowanie na technologie umożliwiające bardziej naturalną komunikację. Jednym z najnowszych osiągnięć w tej dziedzinie jest model opracowany do generowania realistycznych, mówiących twarzy wirtualnych postaci, bazujących na jednym statycznym obrazie i klipie dźwiękowym mowy.
Nowatorskie podejście AI do dynamiki twarzy
VASA-1 (skrót od „Visual Affective Skills Animator”) model AI stworzony przez Microsoft Research, to coś jak zaawansowany program komputerowy, który sprawia, że obrazek twarzy może mówić, ruszać ustami, głową i wyrażać emocje tak, jakby to była prawdziwa osoba. Chodzi tu nie tylko o to, że usta ruszają się zgodnie z tym, co słyszymy, ale twarz na ekranie wygląda na żywą, reaguje i porusza się. Wszystko to sprawia, że staje się bardziej realna. Program wyszkolono na zestawie danych VoxCeleb2 utworzonych w 2018 roku przez trzech badaczy z Uniwersytetu Oksfordzkiego.
Przeprowadzone badania wykazały, że metoda ta znacznie przewyższa dotychczasowe podejścia pod wieloma względami. Nie klonuje ani nie symuluje głosów, ale opiera się na istniejącym wejściu audio, które może być specjalnie nagrane w do tego celu. Technika nie tylko dostarcza wysokiej jakości wideo z realistycznymi dynamikami twarzy i głowy, ale także umożliwia generowanie go w czasie rzeczywistym z rozdzielczością 512×512 pikseli z prędkością do 40 klatek na sekundę i znikomym opóźnieniem startowym.
Co jeszcze potrafi VASA-1?
Model AI przyjmuje opcjonalne sygnały jako warunki, takie jak kierunek spojrzenia oczu, odległość głowy oraz zmiany emocjonalne. Ponadto technologia wykazuje zdolność do obsługi zdjęć i dźwięków, które wykraczają poza rozkład danych treningowych, takich jak artystyczne zdjęcia czy śpiew, a nawet mowa w innych językach niż angielski.
Mimo potencjalnego ryzyka nadużyć, jak w przypadku innych technik generowania treści, program może przynieść również sporo korzyści, takich jak pomoc w edukacji, ułatwienie komunikacji osobom, które mają trudności z mówieniem, czy nawet wsparcie terapeutyczne i towarzyskie dla osób samotnych lub potrzebujących.