Archiwa filmowe Disneya zawierają w sobie prawie 100 lat materiału. Zapewne nawet animatorom trudno się było w nich odnaleźć, dlatego też pracownicy organizacji DTCI zbudowali platformę uczenia maszynowego, która ma pomóc w automatyzacji cyfrowej archiwizacji wszystkich filmów.
Pomocy!
Jak powiedział Anthony Accardo, szef działu badań i rozwoju w organizacji DTCI, po znalezieniu odpowiednich metadanych, sztuczna inteligencja może pomóc animatorom w odnalezieniu specyficznych klipów i sekwencji filmowych w archiwach studia Disney.
Jeśli animator pracujący nad nowym sezonem Wojen Klonów chce odnaleźć dany typ eksplozji, widziany trzy sezony wcześniej, na przykład w celu użycia go jako referencji do stworzenia czegoś nowego, musi on spędzić kilka godzin na YouTube, oglądając filmy, bo nie można znaleźć tego patrząc tylko na tytuły odcinków.
“So if an animator working on a new season of Clone Wars wants to find a specific type of explosion that happened three seasons ago or as a reference to make something for this current season, that person had to spend hours on YouTube going through video because you can’t find that by just looking at episode titles.”
Ta platforma ma to zmienić.
Disney przejmuje świat rozrywki
Projekt ten rozpoczął się już w 2016 roku. Accardo zaproponował budowę takiego systemu, zauważając przejście Disney na cyfrowe platformy, które już są dostępne dla konsumentów. Jednakże, tworzenie takiego systemu od zera wcale nie jest takie łatwe. Accardo od początku zastanawiał się również nad klasyfikacją ogromnej ilości metadanych, takich jak tagi, którą ten system wyprodukuje.
Zespół DTCI zaprogramował następnie pierwszy na świecie automatyczny system tagowania, który analizował poszczególne klatki i potrafił wywnioskować, co się na nich znajduje. Tagowanie jest jednym z najważniejszych składników efektywnego modelu uczenia nadzorowanego.
Tutaj zaczęły się jednak problemy. Jak mówi Miquel Àngel Farré, menedżer działu badań i rozwoju w DTCI:
Twarz postaci w filmie Auta ma ludzkie własności, lecz nie przypomina ludzkiej twarzy. Dlatego właśnie potrzebujemy czegoś, co pojmie abstrakcyjny koncept twarzy, a standardowe uczenie maszynowe na to nie pozwala. Na szczęście, mogliśmy to osiągnąć z głębokim uczeniem.
“The face of a character in Cars has human properties but it doesn’t look like a human face. Therefore, we need something that can learn the abstract concept of ‘face,’ and with traditional machine learning, it was very complicated. But thanks to deep learning we could achieve that.”
Niestety, pierwsze próby pokazały, że model potrafił rozpoznawać tylko ludzkie rysy animowanych postaci, np. nie rozpoznawał bohaterów z nieproporcjonalnie rozmieszczonymi oczami. Zespół musiał przyjąć inną drogę.
Podejście numer 2
Cóż, badacze wręcz musieli stworzyć nowy model głębokiego uczenia, przeznaczony tylko do animowanych postaci. Niestety, do zbudowania takiego od początku potrzeba naprawdę ogromnej bazy danych. A jednak, udało im się to ominąć.
Mianowicie, zmodyfikowali istniejący system rozpoznawania twarzy w animacjach innego studia, zbudowany na architekturze Faster-R CNN Object Detection. W skrócie, zamiast tworzenia modelu AI od nowa, spędzając miesiące na jego trenowanie, zespół mógł tylko dostroić istniejący system, przystosowując go do stylu animacji Disneya.
Po kilku ulepszeniach tego procesu, takich, jak zmniejszenie zakresu analizowanych pikseli, a także zrozumieniu, że człowiek wciąż będzie musiał nadzorować proces tagowania, udało się. Teraz Disney ma własnego, bardzo dokładnego bibliotekarza – AI.
Technologia ta może przydać się jednak nie tylko pracownikom studia. Mogłaby zostać zaimplementowana w serwisach streamingowych, abyśmy mogli szybciej i łatwiej odnajdywać odcinki, a nawet sceny, które nas interesują. Nie wymagałoby to także całkowicie nowego systemu.
W przyszłości, zespół ma zamiar ulepszyć ten model, używając multimodalnego głębokiego uczenia. Warto śledzić progres studia Disney, ponieważ może okazać się, że projekt ten zrewolucjonizuje także sposób, w jaki my oglądamy nasze ulubione seriale.