Video LDM, generowanie wideo (źródło: NVIDIA)
Video LDM, generowanie wideo (źródło: NVIDIA)

NVIDIA pracuje nad generowaniem krótkich filmów na podstawie tekstu

Grupa naukowców działająca w firmie NVIDIA zdołała opracować zupełnie nowy model syntezy wideo wysokiej jakości, który działa w oparciu o stabilną dyfuzję.

Video LDM wygeneruje kilkusekundowe klipy o wysokiej rozdzielczości

Badacze NVIDIA stworzyli nowy model syntezy filmów wysokiej jakości Video LDM i oparli go o stabilną dyfuzję. Dzięki temu użytkownicy są w stanie generować krótkie filmy wideo na podstawie monitów tekstowych.

Opracowany model obsługiwany jest przez modele dyfuzji utajonej (LDM), co oznacza, że wysokiej jakości obrazy pomijają nadmierne wymagania obliczeniowe, a wszystko to dzięki modelowi dyfuzji skompresowanej. Metoda ta opiera się najpierw o generowanie obrazów, a następnie, poprzez wprowadzenie wymiaru czasowego, o tworzenie wideo.

Video LDM tworzy filmy w kilku krokach, najpierw ogólnie generuje rzadkie klatki, które uznawane są za kluczowe. Następnie przechodzi przez dostrajanie w oparciu o inne modele utajonej dyfuzji interpolacji, co końcowo pozwala na wygenerowanie dłuższych, dokładniejszych i bardziej szczegółowych klipów o wysokiej rozdzielczości.

Kolejne kroki w generowaniu wideo w oparciu o nowy model stabilnej dyfuzji (źródło: NVIDIA)
Kolejne kroki w generowaniu wideo w oparciu o nowy model stabilnej dyfuzji (źródło: NVIDIA)

Jak model NVIDIA generuje wideo?

Powstałe w najnowszym modelu NVIDIA filmy wygenerowane zostały w rozdzielczości 1280 na 2048 pikseli. Liczba klatek jednego wideo sięga 113, a prędkość renderowania wynosi 24 klatki na sekundę. Dzięki temu użytkownik otrzymuje prawie 5-sekundowe wideo.

Video LDM zawiera 2,7 miliarda parametrów, które trenowane są na filmach, co wskazuje na to, że najnowszy wynalazek jest znacznie mniejszy w porównaniu do innych tego typu prac. Nie oznacza to jednak, że niemożliwe jest stworzenie wideo o wysokiej rozdzielczości, spójnych czasowo oraz zróżnicowanych. Generowanie wideo zostało dopracowane na zestawie obrazów po DreamBooth.

Prace nad Video LDM trwają również w oparciu o prawdziwe filmy, które prezentują sceny z jazdy w prawdziwym terenie. W tym przypadku rozdzielczość generowanych obrazów wynosi 512 na 1024 piksele. Ten przypadek obejmuje także dłuższe wideo, nawet o długości pięciu minut.