Badacze z Cornell zaproponowali nowe narzędzie optymalizacyjne do estymacji ruchu w wideo, które może znaleźć zastosowanie w montażu oraz w tworzeniu treści multimedialnych generowanych przez sztuczną inteligencję. To narzędzie nazwane OmniMotion, zostało przedstawione podczas Międzynarodowej Konferencji na temat Wizji Komputerowej w Paryżu.
Główne cechy OmniMotion
W świecie estymacji ruchu wideo dominują dwie główne metody: przepływ optyczny (krótki zasięg, ale dokładny) oraz śledzenie cech (długi zasięg, ale rzadki). Opisane narzędzie pozwala połączyć te dwie opcje, oferując jednocześnie dokładne i długodystansowe śledzenie w czasie.
Kluczową cechą OmniMotion jest tzw. „Quasi-3D” – forma 3D, która zachowuje ważne właściwości, takie jak śledzenie pikseli, gdy przechodzą za inne obiekty. Pozwala to na bardziej jakościową estymację 3D, gdzie główny nacisk kładziony jest na relacje między obiektami, a nie na dokładne umiejscowienie ich w przestrzeni.
Jak to działa w praktyce?
Program bierze niewielką próbkę klatek i estymacji ruchu, aby stworzyć kompletną jego reprezentację dla całego wideo. Optymalizując ją, można uzyskać precyzyjną trajektorię ruchu przez cały film. Jest to niezwykle przydatne, na przykład, gdy dodajemy komputerowo generowane obrazy (CGI) do montażu multimediów. OmniMotion może również pomóc w generowaniu bardziej spójnych treści wideo stworzonych przez AI.
Gdy chcemy dodać jakiś obiekt do filmu, na przykład naklejkę, musimy wiedzieć, gdzie powinien się on znajdować w każdej klatce. Nowe narzędzie ułatwi to zadanie, śledząc, gdzie należy umieścić go w każdej klatce i czy nie jest przypadkiem zasłonięty przez inny obiekt.
Kolejne odkrycie w wizji komputerowej
Podczas tej samej konferencji został również przedstawiony projekt „Doppelgangers„. Chodzi o naukę rozróżniania obrazów o podobnych kształtach, ale różnych kontekstach, takich jak różne strony wieży zegarowej czy budynku. To zbiór zdjęć internetowych zabytków i miejsc kultury, które wykazują powtarzalne wzory i symetryczne struktury.
W tym projekcie sieć neuronowa jest szkolona do oceny rozkładu przestrzennego kluczowych punktów na obrazie, aby różnicować te, które wyglądają podobnie, ale są różne. Jest to niezwykle przydatne w technologii 3D.