OpenAI, firma odpowiedzialna za publiczne udostępnienie głośnego chatbota sztucznej inteligencji, pokazała kolejną nowinkę, która może zachwycić. Tym razem twórcy ChatGPT opracowali generator wideo, tworzący niezwykle realistyczne klipy.
ChatGPT i inne boty AI
Firmy zaangażowane w sztuczną inteligencję nie zwalniają i opracowują coraz to nowsze i lepsze modele AI. W wyścigu uczestniczy przede wszystkim Google na czele z Gemini czy też Microsoft z Copilotem, jednak pionierem powszechnie dostępnego generatywnego AI była oczywiście marka OpenAI z ChatGPT. Mogłoby się wydawać, że przedsiębiorstwo zostało nieco w tyle – nic bardziej mylnego. Firma pokazała możliwości nowo opracowanego modelu Sora.
Zadaniem najnowszego narzędzia jest wygenerowanie wideo w oparciu o krótki opis przesłany przez użytkownika. Póki co model ten jest w stanie tworzyć treści o długości do jednej minuty, jednak powstałe nagrania charakteryzują się wysoką jakością. Sora jest w stanie opracować wideo z wieloma obiektami, teksturami i szczegółami, a także ludźmi, poruszającymi się w różnorodny sposób, z konkretnymi wyrazami twarzy.
Generator Sora dołącza do produktów OpenAI
Najnowszy model twórców ChatGPT jest wielomodułowy. Użytkownicy będą mogli udostępniać wybrane przez siebie obrazy, które staną się źródłem i podstawą do utworzenia filmu. Jak wynika z informacji, poszczególne fragmenty zdjęcia będą dokładnie animowane z zachowaniem wszelkich szczegółów.
OpenAI na swojej stronie dotyczącej modelu ogłosiła, że Sora została udostępniona artystom, projektantom i filmowcom, aby uzyskać opinie i informacje na temat opracowanego narzędzia. Wszystko po to, aby ulepszyć dotychczasową technologię, zapewniając przy tym bezpieczeństwo dla użytkowników.
Choć przykładowe nagrania mogą zachwycać, twórcy popularnego bota wspominają o słabych stronach opracowanego modelu dyfuzyjnego. Sora może borykać się z trudnościami w zakresie tworzenia dokładnych symulacji złożonych scen. Jako przykład opisywanego problemu firma wspomina o tym, iż postać na nagraniu może ugryźć ciastko, jednak w dalszej części nagrania ciastko nie będzie pozbawione żadnego fragmentu. Model może także mylić lewą z prawą stroną czy doświadczać trudności z precyzyjnym opisem zdarzeń w czasie.