AI (źródło: Pixabay)
AI (źródło: Pixabay)

Pomysłowy model multimodalny Microsoftu, który potrafi rozwiązywać zagadki wizualne

Microsoft przedstawił nowy multimodalny model, który jest w stanie „zrozumieć” to, co znajduje się na obrazach, a także rozwiązywać zagadki wizualne.

Model Microsoftu, który w przyszłości będzie wykonywał zadania tak, jak człowiek

Naukowcy firmy Microsoft zaprezentowali możliwości modelu Kosmos-1. Potrafi on przeprowadzać analizę obrazów pod kątem ich zawartości i rozwiązywać zagadki wizualne, a także wizualnie rozpoznawać tekst i nauczyć się języka naturalnego, a co za tym idzie – jest w stanie rozwiązać wizualne testy IQ.

Jak twierdzą badacze, opracowanie multimodalnej sztucznej inteligencji to podstawa do tego, aby zbudować model, który w przyszłości będzie wykonywał ogólne zadania dokładnie tak, jak człowiek, a wszystko to w oparciu o wprowadzony tekst, dźwięk, obraz czy wideo.

Testy modelu Kosmos-1 (źródło: Language Is Not All You Need: Aligning Perception with Language Models - Shaohan Huang∗ , Li Dong∗ , Wenhui Wang∗ , Yaru Hao∗ , Saksham Singhal∗ , Shuming Ma∗ Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei; Microsoft)
Testy modelu Kosmos-1
(źródło: Language Is Not All You Need: Aligning Perception with Language Models – Shaohan Huang∗ , Li Dong∗ , Wenhui Wang∗ , Yaru Hao∗ , Saksham Singhal∗ , Shuming Ma∗ Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei; Microsoft)

Kosmos-1 w badaniach i testach

W artykule naukowym Microsoftu przedstawione zostały wizualne przykłady działania modelu Kosmos-1, który to jest w stanie rozwiązać test IQ Ravena z dokładnością zaledwie do 22-26%. Cały pomysł i projekt najprawdopodobniej jest własnym projektem Microsoftu, bez udziału firmy OpenAI, z którą technologiczny gigant intensywnie współpracuje.

Zasada działania modelu Kosmos-1 jest nieco inna niż działanie znanego i głośnego systemu ChatGPT. Jak w swoim artykule tłumaczą naukowcy, aby multimodalny duży model językowy mógł zaakceptować podany mu obraz, konieczne jest najpierw kodowanie i przetłumaczenie go na serię tokenów, przede wszystkim w postaci tekstu, tak, by system go zrozumiał.

Testy modelu Kosmos-1 (źródło: Language Is Not All You Need: Aligning Perception
with Language Models - Shaohan Huang∗
, Li Dong∗
, Wenhui Wang∗
, Yaru Hao∗
, Saksham Singhal∗
, Shuming Ma∗
Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal
Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei; Microsoft)
Testy modelu Kosmos-1
(źródło: Language Is Not All You Need: Aligning Perception with Language Models – Shaohan Huang∗ , Li Dong∗ , Wenhui Wang∗ , Yaru Hao∗ , Saksham Singhal∗ , Shuming Ma∗ Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei; Microsoft)

Kosmos-1 został przeszkolony za pomocą danych Internetu, a szczególnie The Pile, czyli zasobu tekstów w języku angielskim o pojemności 800 GB, a także przy udziale zasobów organizacji Common Crawl. Przeprowadzone na modelu testy dotyczyły rozumienia i generowania języka, a także klasyfikacji tekstu, podpisów do przedstawionych obrazów czy odpowiedzi wizualnych.

Jak widać po wynikach, opracowany model znajduje się jeszcze we wczesnej fazie rozwoju, jednak jest szczególnie interesującym rozwiązaniem dla przyszłości i rozwoju sztucznej inteligencji.