Microsoft przedstawił nowy multimodalny model, który jest w stanie „zrozumieć” to, co znajduje się na obrazach, a także rozwiązywać zagadki wizualne.
Model Microsoftu, który w przyszłości będzie wykonywał zadania tak, jak człowiek
Naukowcy firmy Microsoft zaprezentowali możliwości modelu Kosmos-1. Potrafi on przeprowadzać analizę obrazów pod kątem ich zawartości i rozwiązywać zagadki wizualne, a także wizualnie rozpoznawać tekst i nauczyć się języka naturalnego, a co za tym idzie – jest w stanie rozwiązać wizualne testy IQ.
Jak twierdzą badacze, opracowanie multimodalnej sztucznej inteligencji to podstawa do tego, aby zbudować model, który w przyszłości będzie wykonywał ogólne zadania dokładnie tak, jak człowiek, a wszystko to w oparciu o wprowadzony tekst, dźwięk, obraz czy wideo.
Kosmos-1 w badaniach i testach
W artykule naukowym Microsoftu przedstawione zostały wizualne przykłady działania modelu Kosmos-1, który to jest w stanie rozwiązać test IQ Ravena z dokładnością zaledwie do 22-26%. Cały pomysł i projekt najprawdopodobniej jest własnym projektem Microsoftu, bez udziału firmy OpenAI, z którą technologiczny gigant intensywnie współpracuje.
Zasada działania modelu Kosmos-1 jest nieco inna niż działanie znanego i głośnego systemu ChatGPT. Jak w swoim artykule tłumaczą naukowcy, aby multimodalny duży model językowy mógł zaakceptować podany mu obraz, konieczne jest najpierw kodowanie i przetłumaczenie go na serię tokenów, przede wszystkim w postaci tekstu, tak, by system go zrozumiał.
Kosmos-1 został przeszkolony za pomocą danych Internetu, a szczególnie The Pile, czyli zasobu tekstów w języku angielskim o pojemności 800 GB, a także przy udziale zasobów organizacji Common Crawl. Przeprowadzone na modelu testy dotyczyły rozumienia i generowania języka, a także klasyfikacji tekstu, podpisów do przedstawionych obrazów czy odpowiedzi wizualnych.
Jak widać po wynikach, opracowany model znajduje się jeszcze we wczesnej fazie rozwoju, jednak jest szczególnie interesującym rozwiązaniem dla przyszłości i rozwoju sztucznej inteligencji.