Postęp w dziedzinie sztucznej inteligencji (SI) i robotyki wprowadził nas w nową erę automatyzacji. Obecnie roboty nie tylko pełnią funkcje w przemyśle, ale również stają się coraz bardziej wszechstronne, dostosowując się do naszego codziennego życia.
Narodziny robotów społecznych
Jednym z najważniejszych osiągnięć w tej technologii jest pojawienie się robotów społecznych. Są one projektowane tak, aby interakcje z ludźmi były naturalne i znaczące. Mogą one służyć jako towarzysze dla osób starszych, wspierając ich emocjonalnie i pomagając w codziennych czynnościach. Znajdują również zastosowanie w edukacji, wspierając dzieci z trudnościami w nauce czy rozwijaniu języka.
Co więcej, coraz częściej wykorzystuje się je w obszarze obsługi klienta, poprawiając efektywność interakcji w takich sektorach jak handel czy hotelarstwo. Dzięki technologiom SI, takim jak przetwarzanie języka naturalnego czy wizja komputerowa, roboty społeczne zdobywają coraz większe umiejętności w rozumieniu i reagowaniu na ludzkie emocje i intencje.
Nowe możliwości dzięki technologii LLM
Jednak, aby wspomniane maszyny były przydatne w konkretnych zastosowaniach, muszą połączyć otwarte dialogi, które oferują nowoczesne modele języka, z wiedzą specjalistyczną. Ponadto, aby przekraczać granice prostego przekazywania informacji i tworzyć bardziej naturalne doświadczenie konwersacyjne, powinny być w stanie wyrażać emocje za pomocą mimiki twarzy.
Mimo że wszystkie te zdolności już istnieją i są zaawansowane, nie zostały połączone w jedno spójne rozwiązanie do momentu pojawienia się FurChat.
Rewolucja w interakcjach
Stworzony przez inżynierów z Heriot-Watt University oraz Alana AI, system korzysta z Furhat oraz modelu GPT-3.5, razem tworząc wirtualną recepcjonistkę, która w naturalny sposób komunikuje się z ludźmi. Maszyna wykorzystuje projekcję obrazu na trójwymiarową maskę, imitując ludzką twarz. Ma też system mikrofonów i głośników do interakcji z ludźmi.
Gdy osoba komunikuje się z tym robotem, jej słowa są konwertowane na tekst, który jest następnie przetwarzany, tak by zrozumieć intencje użytkownika. Informacje te są używane do generowania tekstowej odpowiedzi, która jest przekazywany do modelu LLM. Następnie jest ona przetwarzana na mowę i odtwarzana przez głośniki robota Furhat. Jednocześnie, nowoczesne modele GPT wykorzystują zdolność rozpoznawania emocji do generowania odpowiednich gestów mimicznych.
W praktyce pomysł został już przetestowany „pracując” jako recepcjonistka w UK National Robotarium w Szkocji. Robot okazał się być skuteczny w dostarczaniu dokładnych informacji i komunikowaniu się z odwiedzającymi w naturalny sposób. Obecnie potrafi prowadzić interakcje tylko z jedną osobą naraz, ale zespół bada możliwość prowadzenia rozmów z wieloma osobami jednocześnie.