Naukowcy z Google i Uniwersytetu Technicznego w Berlinie zaprezentowali PaLM-E – multimodalny model języka wizualnego, który pozwala robotom na natychmiastowe wykonywanie poleceń manipulacyjnych bez wcześniejszego treningu.
Roboty coraz inteligentniejsze
Aby pomóc nam w wykonywaniu coraz wymyślniejszych zadań, maszyny zyskują funkcje i umiejętności, o których kiedyś śniło się jedynie najbardziej zwariowanym futurologom. Bojowe drony reagujące na myśli żołnierzy, tańczący i śpiewający towarzysze, drażliwi kosmiczni asystenci… Do tego festiwalu innowacji swoją potężną cegłę dokłada Google, które mimo cięć budżetowych nie ogranicza swojego działu R&D.
Grupa naukowców zajmujących się sztuczną inteligencją z Google i Uniwersytetu Technicznego w Berlinie zaprezentowała PaLM-E, multimodalny model języka wizualnego (VLM) z 562 miliardami parametrów, który integruje funkcje wizyjne i interpretacji mowy. To największy opracowany VLM dla robotów, zdolny do wykonywania różnorodnych zadań bez konieczności szkolenia.
Co to oznacza w praktyce? PaLM-E może wygenerować plan działania dla mobilnej platformy z ramieniem i wykonać czynność sam. Robi to, analizując dane z kamery bez konieczności analizowania mapy obszaru. Eliminuje to potrzebę wstępnego przetwarzania lub opisywania danych przez człowieka i pozwala na bardziej autonomiczne działanie urządzenia.
PaLM-E – geniusz i Zosia Samosia w jednym
Maszyna wyposażona w PaLM-E jest też odporna i może reagować na otoczenie. Przykładowo, badacz chwytał żetony obok robota i przesuwał je, a robot samodzielnie lokalizował zgubę i przysuwał ją ponownie.
Demonstrujemy w testach wydajność PaLM-E w trudnych i różnorodnych zadaniach związanych z manipulacją mobilną. Robot musi zaplanować sekwencję działań nawigacyjnych i manipulacyjnych na podstawie instrukcji człowieka. Na przykład, po otrzymaniu instrukcji „Rozlałem drinka, czy możesz mi przynieść coś do posprzątania?”, robot musi zaplanować sekwencję zawierającą „1. Znajdź gąbkę, 2. Podnieś gąbkę, 3. Przynieś do użytkownika, 4. Odłóż gąbkę.
Zespół PaLM-E
Badacze Google zaobserwowali kilka interesujących efektów, które wynikają z zastosowania dużego modelu językowego jako rdzenia PaLM-E. Najciekawszy to zdolność pamiętania i uczenia się, co oznacza, że może przenosić wiedzę i umiejętności, których się nauczył, z jednego zadania do drugiego. Skutkuje to znacznie wyższą wydajnością w porównaniu z modelami robotów wykonujących jedno zadanie i natychmiast o nim zapominających.
O innych właściwościach niesamowitego modelu można przeczytać w oficjalnym artykule naukowym zespołu.