Grupa naukowców działająca w firmie NVIDIA zdołała opracować zupełnie nowy model syntezy wideo wysokiej jakości, który działa w oparciu o stabilną dyfuzję.
Video LDM wygeneruje kilkusekundowe klipy o wysokiej rozdzielczości
Badacze NVIDIA stworzyli nowy model syntezy filmów wysokiej jakości Video LDM i oparli go o stabilną dyfuzję. Dzięki temu użytkownicy są w stanie generować krótkie filmy wideo na podstawie monitów tekstowych.
Opracowany model obsługiwany jest przez modele dyfuzji utajonej (LDM), co oznacza, że wysokiej jakości obrazy pomijają nadmierne wymagania obliczeniowe, a wszystko to dzięki modelowi dyfuzji skompresowanej. Metoda ta opiera się najpierw o generowanie obrazów, a następnie, poprzez wprowadzenie wymiaru czasowego, o tworzenie wideo.
Video LDM tworzy filmy w kilku krokach, najpierw ogólnie generuje rzadkie klatki, które uznawane są za kluczowe. Następnie przechodzi przez dostrajanie w oparciu o inne modele utajonej dyfuzji interpolacji, co końcowo pozwala na wygenerowanie dłuższych, dokładniejszych i bardziej szczegółowych klipów o wysokiej rozdzielczości.
Jak model NVIDIA generuje wideo?
Powstałe w najnowszym modelu NVIDIA filmy wygenerowane zostały w rozdzielczości 1280 na 2048 pikseli. Liczba klatek jednego wideo sięga 113, a prędkość renderowania wynosi 24 klatki na sekundę. Dzięki temu użytkownik otrzymuje prawie 5-sekundowe wideo.
Video LDM zawiera 2,7 miliarda parametrów, które trenowane są na filmach, co wskazuje na to, że najnowszy wynalazek jest znacznie mniejszy w porównaniu do innych tego typu prac. Nie oznacza to jednak, że niemożliwe jest stworzenie wideo o wysokiej rozdzielczości, spójnych czasowo oraz zróżnicowanych. Generowanie wideo zostało dopracowane na zestawie obrazów po DreamBooth.
Prace nad Video LDM trwają również w oparciu o prawdziwe filmy, które prezentują sceny z jazdy w prawdziwym terenie. W tym przypadku rozdzielczość generowanych obrazów wynosi 512 na 1024 piksele. Ten przypadek obejmuje także dłuższe wideo, nawet o długości pięciu minut.