Naukowcy, pracujący pod szyldem Nvidii, opublikowali artykuł badawczy, w którym proponują, jak „ugryźć” podawanie przedmiotów ludziom przez roboty. Pomocna okazała się być sztuczna inteligencja.
Przeciwstawny kciuk jest błogosławieństwem chwytności naszych dłoni, a przy tym przekleństwem dla robotów czy automatycznych podajników. W opublikowanym niedawno artykule naukowym, ekipa badaczy zaproponowali skuteczny sposób na rozwiązanie tego kłopotu. W opracowanym modelu, robot spotyka człowieka, rozpoznaje chwyt, przy pomocy którego człowiek trzyma dany przedmiot i odpowiednio planuje trajektorię robotycznych ramion tak, aby sprawnie odebrać coś z naszych rąk. Naukowcy przekonują, że w ten sposób możliwe jest płynne odebranie danego przedmiotu od ludzi, co może chociażby zwiększyć wydajność pracowników na magazynach.
Nvidia sprawi, że roboty wyciągną dłoń do ludzi
Jak wyjaśniają autorzy publikacji, coraz więcej badań koncentruje się na sposobie bezproblemowego podawania przedmiotów robotom. Często skupiają się one na zagadnieniach, takich jak podanie danego przedmiotu odwrotnie, niemniej prawdziwie problematyczne jest okluzja. W rozumieniu komputerowym jest to taka sytuacja, kiedy obraz jednego przedmiotu jest skrywany drugim, znajdującym się bliżej.
Oznacza to na przykład, że kiedy człowiek nie zwraca uwagi na robota, tylko wysuwa rękę na ślepo, to przypadkowo zasłania mu dłonią część przedmiotu tak, że jego technologiczny kompan nie jest w stanie sobie poradzić.
Sztuczna inteligencja analizuje sposób, w jaki człowiek trzyma przedmiot
Ekipa Nvidii podzieliła chwyty (jak poważnie to brzmi, prawda?) na kilka kategorii – „na otwartej dłoni”, „uszczypnięcie od dołu”, „uszczypnięcie od góry”, „uszczypnięcie od boku” oraz „podnoszenie”. Następnie użyli kamery Microsoft Azure Kinect, aby zarejestrować wszystkie te sposoby, uwzględniając przy tym różne kąty spojrzenia czy warianty chwytu.
Oczywiście budowanie modelu było oparte na rzeczywistym wysuwaniu ręki i podawaniu przedmiotu – tak, aby rzeczywiście oparty na tej nauce robot mógł przewidzieć, co zrobi człowiek.
Opracowany przez badaczy z Nvidii model generuje trajektorie swojego ruchu tak, aby uniknąć kontaktu między chwytakiem a dłonią. Uwzględnia przy tym rodzaj chwytu i stara się przewidzieć go tak, aby móc odpowiednio wybrać sposób podejścia do przedmiotu i przejęcia go z dłoni człowieka. Jak podkreślają naukowcy, jeśli robot nie będzie przekonany, co chce zrobić człowiek, po prostu pozostanie w pozycji macierzystej i będzie czekał.
Jak przekonują autorzy, metoda opracowana przez ekipę Nvidii znacznie poprawiła efektywność takiego podawania przedmiotów. Dotychczasowo stosowane algorytmy osiągały skuteczność na poziomie 80%, podczas gdy model oparty na sztucznej inteligencji może pochwalić się, że był skuteczny w 100% przypadków. Dodatkowo, zaplanowany trajektora okazała się być celna w 64,3% przypadków – dotychczas było to ledwie 29,6%.
Na końcu to, co najważniejsze – najszybszy dotychczasowy system planował i wykonywał dane działanie w ciągu 20,93 sekundy, a sztuczna inteligencja skróciła też czas do 17,34 sekundy. Niby nic, ale w skali dnia i wielu robotów, rozwiązanie to powinno znacznie poprawić efektywność – pomijając fakt, że to dopiero wstępny model.
Warto nadmienić, że nie bez powodu pokusiłem się tutaj o użycie określenia sztuczna inteligencja zamiast uczenie maszynowe. Po pierwsze, robot analizuje sytuację na bieżąco i na jej podstawie przygotowuje różne warianty odpowiedzi.
Po drugie, choć na ten moment reguły dotyczące kategoryzowania chwytów są określone i ręcznie zdefiniowane, to naukowcy planują w przyszłości dostosować system do dopasowywania różnego rodzaju pozycji dłoni do różnych typów chwytów w zależności od aktualnej sytuacji.