Obrazek przedstawia Roberta De Niro.

Przy pomocy AI, nawet Robert De Niro może mówić płynnym niemieckim

W dzisiejszych czasach słyszymy o AI, uczeniu maszynowym i szeroko pojętej technologii niemal wszędzie. Również kinematografia jest jedną z dziedzin, która może sporo zyskać na stosowaniu nowoczesnych rozwiązań technologicznych. Jednym z nich jest Sztuczna Inteligencja, która potrafi dubbingować filmy w bardzo przekonujący sposób. Zobaczcie jak.

Klasycznie, rozpocznijmy od zdiagnozowania problemu – jednego z tych, do których chyba dość mocno przywykliśmy. Podczas oglądania zagranicznego filmu z polskim dubbingiem możemy zauważyć, że aktorzy poruszają ustami inaczej niż sugerowałyby to słyszane przez nas słowa. Jest to dość logiczne, tak po prostu działa dubbing i raz jest to wykonane lepiej, a raz gorzej. Co by jednak było, gdyby np. słynny Robert De Niro ruszał ustami tak, jakby rzeczywiście mówił po polsku?

Takie pytanie, choć może niekoniecznie z językiem polskim w roli głównej, postawili sobie inżynierzy z brytyjskiej firmy Flawless. Po zapoznaniu się z ich stroną internetową, można stwierdzić, że skupiają się na zastosowaniach AI w branży filmowej. Wspomnę tu również, że jednym z jej założycieli był reżyser filmowy Scott Mann, do czego będę się jeszcze odnosił.

Jakie efekty uzyskali pracownicy Flawless? Dziennikarze amerykańskiego WIRED podają przykład Roberta De Niro, który dzięki AI wypowiada swoje kwestie z kultowego Taksówkarza płynnym niemieckim. Oczywiście porusza ustami zgodnie z tym co widz widzi na ekranie, przez co można odnieść wrażenie, że film rzeczywiście był kręcony w tym języku.

Samo zagadnienie wydaje się interesujące, ale do pełnego omówienia musimy poznać jeszcze dwie rzeczy – historię tej technologii oraz szczegóły procesu stosowanego przez naukowców.

Skąd się wziął pomysł na dubbing robiony przez AI?

Opisywany przeze mnie projekt rozpoczął się od osoby Scotta Manna, wspomnianego już wcześniej reżysera filmowego. Po tym jak w 2015 roku, zobaczył dubbingi swojego najnowszego filmu Człowiek mafii załamał się. Stwierdził, że dubbing po prostu zrujnował kilka istotnych scen, które były starannie budowane od początku. Postanowił coś z tym zrobić.

Demo udostępnione przez firmę Flawless. Źródło: Vimeo

Warto nadmienić, że dubbing często wymaga przemodelowania dialogów pomiędzy bohaterami danego filmu. Czasem dzieje się to w większym, czasem w mniejszym stopniu, co oczywiście może wpływać na odbiór dzieła. Powszechnie uważa się, że bardzo dobrym przykładem odpowiednio zrobionego dubbingu jest ten z polskiej wersji filmu Shrek. Zachęcam do zapoznania się z tym na własną rękę. 

Wracając do naszego reżysera filmowego, zaczął on wtedy (w 2015 roku) zagłębiać się w prace akademickie dotyczące technologii deepfake oraz AI. Doprowadziło go to do projektu dotyczącego dubbingu tworzonego przez AI, nad którym pracował Christian Theobalt z niemieckiego Max Planck Institut für Informatik. Czego dotyczyła praca naukowca? 

Jak podaje WIRED, projekt był bardziej zaawansowany niż konwencjonalny deepfake. Polegał na nagraniu mimiki oraz ruchów warg aktora w danej scenie (w oryginale), a następnie na porównaniu ich z mimiką oraz ruchami warg dublera (w innym języku). Następnie tworzono model 3D, który „łączył twarz aktora oryginału z ruchami warg dublera”. Ostatecznie, wyniki pracy były aplikowane do aktora w postprodukcji, dzięki czemu widz otrzymywał bardzo realistyczny dubbing w konkretnym języku.

Flawless zainspirowało się technologią rozwijaną przez Theobalta i stworzyło swoje własne AI. Jak mówi Mann, firma aktualnie prowadzi dyskusje z różnymi studiami na temat produkcji kilku zagranicznych wersji konkretnych filmów. Opinii publicznej zostały udostępnione dema opisywanej technologii, w których możemy zobaczyć m.in. Roberta De Niro mówiącego po niemiecku w Taksówkarzu, Jacka Nicholsona mówiącego po francusku w Ludziach honoru oraz Toma Hanks’a mówiącego po japońsku w filmie Forrest Gump.

Jakie konsekwencje może mieć zastosowanie deepfake’ów i AI do dubbingów?

I tak dochodzimy do ostatniej części tego zagadnienia, czyli konsekwencji – zarówno budżetowych jak i etycznych. Prawdopodobnie w przyszłości, rozwiązania takie jak to opisywane przeze mnie oraz podobne będą coraz bardziej dostępne, przez co więcej osób będzie mogło z nich skorzystać. Jednak będą oni musieli zadać sobie pytanie czy warto, ponieważ nie jest ono jednoznaczne etycznie. 

Obrazek przedstawia sytuację gdzie AI zostało wykorzystane do odmłodzenia aktora - Roberta De Niro.
Technologia jest również wykorzystywana do cyfrowego odmładzania aktorów np. w Irlandczyku (2019). Po lewej: oryginalny Robert De Niro. Po prawej: odmłodzony Robert De Niro. fot. Los Angeles Times

Na początek, czysta matematyka, czyli biznesowa strona medalu. Jak podają źródła, wykorzystanie AI do dubbingów pozwoliłoby studiom zaoszczędzić na dogrywkach, tam, gdzie aktor musi się pojawić, żeby powtórzyć lub dograć jakąś kwestię. Praca byłaby najpewniej dzielona pomiędzy ludzi a technologię, przy czym AI zaczynałoby od dogrywania mniej wymagających kwestii. Z czasem mogłoby się to zmienić.

Znacznie bardziej zróżnicowana jest etyczna strona tego medalu. Po pierwsze, już teraz reakcje aktorów na opisywaną technologię balansują od zachwytu do niepokoju. Po drugie, technologia deepfake była już wykorzystywana do tworzenia fałszywych klipów pornograficznych z celebrytami lub filmów typu revenge-porn. Można się domyślić, że rozwój takiej technologii rodzi obawy przed wykorzystaniem jej do zniesławienia, nie tylko aktorów, ale też zwykłych ludzi. 

Osobiście wydaje mi się, że ta technologia stanie się coraz bardziej „niezauważalna”. Podobnie było chociażby z CGI, bez którego nie powstałoby takie dzieło jak Avatar. Jednak na ten moment, musimy poczekać i zobaczyć jak na AI zareagują aktorzy i przede wszystkim widzowie.