Siri będzie w tym roku obchodzić dziesiąte urodziny. Podobnie jak wiele innych produktów Apple, także Siri zapoczątkował trend, który dziś jest jednym z głównych kierunków, w którym rozwija się technologia.
Interfejs głosowy
Odkąd człowiek wykształcił w sobie zdolność porozumiewania się poprzez głos, od tego czasu rozwija się interfejs komunikacji międzyludzkiej. Brzmi to dość górnolotnie, ale językoznawcy potwierdzą, że wciąż tworzą się nowe słowa, składnie, a nawet całe systemy językowe.
Od dłuższego czasu można zaobserwować ogromny popyt na urządzenia, które obsługuje się za pomocą głosu. Takich urządzeń na świecie są już miliardy. To kolejny stopień ewolucji sposobów komunikacji, tym razem dotyczy to także porozumiewania się człowieka z maszyną.
Specjaliści twierdzą, że coraz częściej będziemy się spotykać z VUI (Voice User Interface). Już dziś obserwuje się potrzebę tworzenia miejsc pracy dla tych, którzy będą się specjalizować w tworzeniu interfejsów głosowych. Warto dodać, że np. Amazon w Polsce ma centrum badawczo-rozwojowe, w którym pracuje nad swoim asystentem głosowym.
Nowy patent, nowe spekulacje
W świecie współczesnej technologii im szybciej pomysł zostanie opatentowany, opracowany i wdrożony w życie, tym większe szanse na to, że dana technologia stanie się standardem. Za każdym razem przelicza się to na wymierne zyski.
Chcąc wyprzedzić konkurencję, Apple zgłosiło kolejny patent, który ma usprawnić działanie Siri. Patent nosi tytuł: „Learning-Based Distance Estimation”, co w wolnym tłumaczeniu można przełożyć na „Szacowanie odległości oparte na uczeniu się„. We wniosku patentowym znajduje się zapis mówiący o tym, że urządzenie, które będzie w stanie oszacować, jak daleko od niego znajduje się użytkownik, będzie mogło dostosować głośność odtwarzania lub odpowiedzi tego inteligentnego urządzenia.
Siri może być wszędzie
Pierwsze, o czym myślę w związku z patentem, to oczywiście inteligentne głośniki HomePod i HomePod mini, ale teoretycznie nic nie stoi na przeszkodzie, by zaimplementować opisywaną technologię w każdym urządzeniu, które może mieć interfejs głosowy. Patent sprawdzi się więc także w iPhonie, iPadzie, na komputerach Mac, a nawet w zegarku.
Będzie to także bardzo podobne do naturalnego zachowania człowieka. Kiedy ktoś znajduje się w znacznej odległości od nas, instynktownie wypowiadamy się głośniej, by nasz rozmówca mógł usłyszeć co mówimy.
Do działania tego pomysłu Apple chce wykorzystać Sztuczną Inteligencję. W opisie patentu możemy przeczytać:
The deep learning system may estimate the direct speech component that contains information about the direct signal propagation from the speech source to the microphone array and the reverberant speech signal that contains the reverberation effect and noise. The deep learning system may [then] extract signal characteristics of the direct signal component and the reverberant signal component and estimate the distance based on the extracted signal characteristics using the learned mapping.
Starając się wniknąć w techniczne aspekty powyższego akapitu, dowiedziałem się, że podczas naszego mówienia pogłos i szumy tworzą unikalne zjawiska. Z danych fizycznych tych zjawisk można sporo się dowiedzieć np. o tym, z jakiej odległości nadawany jest dźwięk.
W swoich poszukiwaniach dotarłem nawet do rozprawy doktorskiej na ten temat propagacji fal akustycznych, czyli kolejnego zjawiska fizycznego, którego parametry stanowią podstawę dla osiągnięcia efektu opisanego w patencie.
Apple nadrabia zaległości
Jak słusznie zauważają redaktorzy makeuseof.com, Apple musi nadganiać konkurencję w dziedzinie wykorzystywania Sztucznej Inteligencji w swoich urządzeniach, a szczególnie w asystencie Siri. Wydaje się, że firma z Cupertino zmierza we właściwym kierunku.
Trafiłem ostatnio na opracowanie biznesowe sytuacji finansowej amerykańskiego giganta, w którym analityk szczególną uwagę zwrócił na spory wzrost wydatków na badania i rozwój. Całkiem niedawno dość głośno było także o ofercie pracy od Apple. Firma szukała ludzi to utworzenia zespołu pracującego nad Siri… w warszawskim biurze.
W przypadku wniosków patentowych nigdy nie można mieć pewności czy opisane pomysły zostaną wdrożone i będą używane na szeroką skalę. Zawsze jednak można puścić wodze fantazji i pomyśleć o ile lepszy byłby świat z daną technologią.
* postanowiłem, że tym razem będę pisał w formie męskiej, bo asystent głosowy Apple może mówić także męskim głosem.