NVIDIA pracuje nad generowaniem krótkich filmów na podstawie tekstu

Video LDM, generowanie wideo (źródło: NVIDIA)

Video LDM, generowanie wideo (źródło: NVIDIA)

Grupa naukowców działająca w firmie NVIDIA zdołała opracować zupełnie nowy model syntezy wideo wysokiej jakości, który działa w oparciu o stabilną dyfuzję.

Video LDM wygeneruje kilkusekundowe klipy o wysokiej rozdzielczości

Badacze NVIDIA stworzyli nowy model syntezy filmów wysokiej jakości Video LDM i oparli go o stabilną dyfuzję. Dzięki temu użytkownicy są w stanie generować krótkie filmy wideo na podstawie monitów tekstowych.

Opracowany model obsługiwany jest przez modele dyfuzji utajonej (LDM), co oznacza, że wysokiej jakości obrazy pomijają nadmierne wymagania obliczeniowe, a wszystko to dzięki modelowi dyfuzji skompresowanej. Metoda ta opiera się najpierw o generowanie obrazów, a następnie, poprzez wprowadzenie wymiaru czasowego, o tworzenie wideo.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/dreambooth/frog_db_1.mp4

Video LDM tworzy filmy w kilku krokach, najpierw ogólnie generuje rzadkie klatki, które uznawane są za kluczowe. Następnie przechodzi przez dostrajanie w oparciu o inne modele utajonej dyfuzji interpolacji, co końcowo pozwala na wygenerowanie dłuższych, dokładniejszych i bardziej szczegółowych klipów o wysokiej rozdzielczości.

Kolejne kroki w generowaniu wideo w oparciu o nowy model stabilnej dyfuzji (źródło: NVIDIA)

Jak model NVIDIA generuje wideo?

Powstałe w najnowszym modelu NVIDIA filmy wygenerowane zostały w rozdzielczości 1280 na 2048 pikseli. Liczba klatek jednego wideo sięga 113, a prędkość renderowania wynosi 24 klatki na sekundę. Dzięki temu użytkownik otrzymuje prawie 5-sekundowe wideo.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/teddy_bear_guitar.mp4

Video LDM zawiera 2,7 miliarda parametrów, które trenowane są na filmach, co wskazuje na to, że najnowszy wynalazek jest znacznie mniejszy w porównaniu do innych tego typu prac. Nie oznacza to jednak, że niemożliwe jest stworzenie wideo o wysokiej rozdzielczości, spójnych czasowo oraz zróżnicowanych. Generowanie wideo zostało dopracowane na zestawie obrazów po DreamBooth.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/text_to_video/conv_in_time/conv_in_time_video2.mp4

Prace nad Video LDM trwają również w oparciu o prawdziwe filmy, które prezentują sceny z jazdy w prawdziwym terenie. W tym przypadku rozdzielczość generowanych obrazów wynosi 512 na 1024 piksele. Ten przypadek obejmuje także dłuższe wideo, nawet o długości pięciu minut.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/assets/driving/high_res_driving_3.mp4
Exit mobile version