Google prezentuje pierwszy na świecie model wizja-język-akcja (VLA), który umożliwia robotom łatwiejsze zrozumienie i wykonywanie zadań.
Innowacyjne technologie w robotyce
Połączenie robotyki i AI to mariaż idealny. Pomijając oczywiste skojarzenia z końcem świata, modele sztucznej inteligencji pozwalają urządzeniom na znacznie szybsze opanowywanie nowych umiejętności, przemieszczanie się w dynamicznie zmieniających się środowiskach czy szybsze podejmowanie trafnych decyzji.
Na tych polach Google wykonał właśnie milowy krok, dzieląc się informacjami o swoim nowo opracowanym modelu sztucznej inteligencji, zdolnym do szybkiego przekładania danych z systemów wizyjnych i językowych na reakcję manipulatorów i pojazdów.
Robotics Transformer 2 (RT-2) to pierwszy na świecie model wizja-język-akcja (VLA), który przekłada pozyskaną wiedzę i dane na uogólnione instrukcje sterowania. RT-2 pokazuje, że przy niewielkiej ilości danych treningowych system jest w stanie przenieść koncepcje osadzone w danych dotyczących szkolenia językowego i wzrokowego bezpośrednio do kierowania działaniami robota – nawet w przypadku zadań, do wykonywania których nigdy nie był szkolony.
Przykładowo dotychczas wykorzystywane urządzenia wymagały szczegółowego szkolenia w zakresie rozpoznawania i usuwania śmieci. Natomiast RT-2 ma już pojęcie o tym, czym jest śmieć i jak się z nim obchodzić, co umożliwia mu bezproblemową identyfikację i obsługę zadania w postaci wykrycia i przeniesienia obiektu w odpowiednie miejsce.
Rewolucyjny model doda inteligencji maszynom
Możliwości oraz semantyczne i wizualne zrozumienie RT-2 są widoczne w ponad 6000 próbach wykonanych z użyciem nowego modelu.
RT-2 nie tylko pokazuje, jak postęp w sztucznej inteligencji szybko przenosi się kaskadowo do robotyki, ale także jest ogromną obietnicą dla urządzeń o bardziej ogólnym przeznaczeniu. Chociaż wciąż pozostaje wiele do zrobienia, aby umożliwić swobodne działanie maszyn w środowiskach skoncentrowanych na człowieku, RT-2 pokazuje nam ekscytującą przyszłość robotyki na wyciągnięcie ręki.
Google
RT-2 oznacza znaczący krok w kierunku opracowania manipulatora ogólnego przeznaczenia, który może skutecznie działać w rzeczywistych warunkach. Łącząc wizję, język i rozumienie działań w jednym modelu, RT-2 otwiera przed maszynami nowe możliwości rozumowania, rozwiązywania problemów i interpretowania informacji, torując drogę do ich zastosowania w różnorodnych zadaniach i scenariuszach.