W fascynującym świecie sztucznej inteligencji, przełomem stało się wykorzystanie perspektywy dziecka. Algorytm AI, uczący się na podstawie wideo zarejestrowanego z punktu jego widzenia, osiągnął nową efektywność w zrozumieniu języka. Tradycyjne modele uczenia maszynowego opierają się na ogromnych zbiorach danych.
Przykładowo, duże modele językowe są szkolone na bazie tekstów liczących miliardy czy nawet biliony słów — ta ilość jest kluczowa dla nauki rozumienia zawiłości języka, wykrywania wzorców oraz generowania spójnych odpowiedzi. Pozwala to uchwycić niuanse składni, semantyki i kontekstu, umożliwiając im wykonywanie złożonych zadań językowych.
Dziecko jako nauczyciel AI
Opisywane podejście znacząco różni się od sposobu, w jaki dzieci uczą się języka. W przeciwieństwie do modeli uczenia maszynowego, które wymagają szerokiej ekspozycji na masowe ilości przykładów, dzieci wykazują zdumiewającą zdolność do zdobywania biegłości językowej z relatywnie niewielkiej liczby obserwacji. Poprzez interakcje ze swoim bezpośrednim otoczeniem oraz potrzebę rozmowy, dzieci naturalnie pojmują złożoności języka. Uczą się rozumieć gramatykę, budować słownictwo i tworzyć spójne zdania z efektywnością, której obecne modele uczenia maszynowego nie mogą dorównać.
Według zespołu naukowców z Uniwersytetu Nowojorskiego, najlepszym sposobem na zrozumienie, jak maluchy uczą się języka, może być spojrzenie na świat ich oczami. Dlatego też dokładnie to zrobili w swoich badaniach — założyli kamerę przymocowaną na hełmie na głowie dziecka i zbierali dane o tym, co ono widziało i słyszało od szóstego miesiąca jego życia do chwili, gdy skończyło drugie urodziny, gdyż to właśnie w tym czasie dziecko zdobywa umiejętność mowy.
Urządzenie zlokalizowane było w ten sposób, aby uzyskać widok na to, na co patrzyło dziecko. Łącznie zarejestrowano około 61 godzin wideo, co stanowiło tylko około jednego procenta godzin czuwania dziecka — dane te reprezentują więc tylko niewielką część jego doświadczeń. Nagrano dwa koty, jego rodziców, łóżeczko i zabawki, jego dom, posiłki i wiele więcej. W tym badaniu uzyskano zbiór danych składający się z 60 000 klatek wideo, które następnie sparowano z transkryptami wypowiedzi rodziców dziecka lub innych obecnych osób.
Mały zbiór danych, wielkie możliwości
Dla modelu uczenia maszynowego to bardzo mały zbiór danych do nauki czegokolwiek o języku według standardów. Jednak aby zrozumieć jego użyteczność, naukowcy wykorzystali go do szkolenia multimodalnej (różnej) sieci neuronowej, która akceptowała klatki wideo i powiązane transkrypcje. W szczególności opierano się na algorytmie uczenia kontrastywnego (contrastive learning) — podejście to pozwoliło modelowi tworzyć powiązania między wypowiadanymi słowami a obiektami. W miarę gdy współistniały one w tych samych klatkach, związek między nimi wzmacniał się. Odwrotnie, gdy słowa i obiekty rzadko były obserwowane razem, połączenia się osłabiały.
Model ten nie stanowi znaczącej konkurencji dla ChatGPT, Bardem czy LLaMA w zadaniach zrozumienia języka. Jednakże okazał się on zdolny do bardzo dobrego radzenia sobie w testach, które często stosuje się do mierzenia nauki słów u niemowląt. Podawane w nich jest słowo wraz z zestawem czterech obiektów. Celem jest wybranie odpowiedniego z nich, który je reprezentuje. Dzięki tym badaniom odkryto, że model nauczył się znaczącego słownictwa z małego zbioru danych, uzyskanych z perspektywy dziecka.