Stało się. Od kilku lat zastanawiałem się, czy powstaną programy, które będą mogły automatycznie montować filmy, np. przez wykorzystanie AI. Pamiętam, jak oglądałem ten film, w którym programista sam próbuje stworzyć coś takiego. Chińska firma Baidu nie tylko jednak osiągnęła ten cel, lecz zrobiła o wiele więcej. Oto, jak Sztuczna Inteligencja tworzy filmy o najnowszych wiadomościach od zera.
Szybsza od człowieka
Sztuczna Inteligencja w dziennikarstwie jest bardzo kontrowersyjnym tematem. Przez fakt, że AI potrafi (choć wciąż się rozwija) pisać i edytować artykuły (a teraz także filmy) szybciej od ludzi, wielu dziennikarzy może stracić pracę. Wszystko zaczęło się od krótkiego filmu na Twitterze, opublikowanego w 2018 roku.
Jest to Prowadzący AI (oryginalnie: 3D AI News Anchor), stworzony na próbę przez firmę Sogou i chińską redakcję Xinhua. Przez 2 lata był on cały czas rozwijany, co doprowadziło do jego nowej, lepszej wersji, opublikowanej w poprzednim miesiącu. Potrafi teraz replikować ludzi – nasze zachowanie, mimikę i głos.
Dzięki tej wersji Prowadzącego, a także ulepszeniach, zarówno w redagowaniu, jak i rozumieniu artykułów przez AI, firma Baidu miała w końcu wszystko, co potrzebowała do swojej najnowszej kreacji.
Jak stworzyć film w 2,5 minuty
W skrócie, model Sztucznej Inteligencji od Baidu, nazwany Vidpress, tworzy krótkie wideo na podstawie tekstu artykułów. Wklejasz link, dostajesz film. Stworzenie 2-minutowego filmu zajmuje mu około 2,5 minut. Wow…
Dla porównania, człowiekowi zajmuje to około kwadrans. I to nie wliczając żadnych zaawansowanych efektów. Ale… jak to możliwe?
Po wklejeniu linku z artykułem, Vidpress przeszukuje cały Internet w poszukiwaniu podobnych wiadomości, po czym tworzy krótką notkę o danym wydarzeniu, skupiając się na najważniejszych szczegółach, takich jak miejsce (np. w przypadku lokalnej wiadomości), specyfikacja techniczna (np. przy odsłonięciu nowej wersji iPhone’a), itp.
Na tej podstawie tworzy transkrypt, który zostanie 'przeczytany’ przez syntezator mowy. Wtedy będziemy mieli gotowy plik dźwiękowy. A co z wideo?
Aby stworzyć treści wizualne, Vidpress przeszukuje naszą lokalną galerię, a także Internet, oczywiście, w poszukiwaniu klipów i obrazków, które są powiązane z danym artykułem.
Jednak Baidu skupiło się głównie na kolejnym kroku. Sztuczna Inteligencja próbuje zrozumieć kontekst wypowiedzi, aby przyporządkować najodpowiedniejsze treści wizualne do każdego wypowiadanego zdania – a w tym najlepsi są właśnie ludzie.
Po wszystkich tych krokach, mamy gotowy plik wideo. I chociaż w tym procesie nie występuje jednak żaden Prowadzący, możemy tego oczekiwać w najbliższej przyszłości. A biorąc pod uwagę, jak intensywnie Nvidia i Unreal pracują nad udoskonalaniem technologii renderowania w czasie rzeczywistym, już niedługo może to być nieodróżnialne od rzeczywistości.
Treść jest najważniejsza
Baidu mówi, że Vidpress będzie też mógł rozpoznawać (a nawet przewidywać) obecne trendy, co pozwoli na tworzenie filmów z najbardziej optymalnymi tytułami i treścią. Firma chce uzbroić redakcje i blogerów w potężny program, dzięki któremu będą mogli zamieniać swoje wpisy na krótkie filmy – z automatyczną narracją.
Firma mówi też, że ludzie wciąż będą nadzorować powstałe filmy, aby algorytmy nie szerzyły dezinformacji i fake news. A zadanie to nie będzie proste, gdyż Vidpress jest w stanie stworzyć kilka tysięcy filmów każdego dnia.
Warto zaznaczyć, że na razie Vidpress działa tylko po chińsku. Jeśli jednak chcesz zobaczyć próbę automatycznej narracji programu, jest ona dostępna tutaj.