Jak wynika z nowych badań przeprowadzonych przez naukowców University of Cambridge, teoretycznie, możliwe jest przechwycenie kodów PIN i wiadomości tekstowych za pośrednictwem inteligentnych głośników takich jak np. Google Home i Amazon Echo. Atakujący może użyć do tego celu mikrofonów znajdujących się w tych urządzeniach.
Wielki Brat słucha
Głośniki Google Home, Amazon Echo i podobne konstrukcje, wykorzystujące wirtualnych asystentów, posiadają wbudowane mikrofony, z reguły działające w trybie ciągłego nasłuchiwania otoczenia, w celu wychwycenia fraz aktywujących asystenta, takich jak Ok Google czy Hey Siri. Jak się okazuje, nagrania z tych mikrofonów są wysyłane do zdalnych serwerów operatora, nie tylko w momencie wykrycia frazy aktywującej. Przyczyną zainicjowania transmisji może być, na przykład, błędnie zinterpretowany dźwięk otoczenia. Badania wykazały, że przesłany przez głośnik materiał audio może zawierać nawet do około jednej minuty nagrania. Szczególnie istotne jest też to, że wszystkie takie nagrania są archiwizowane na serwerach. W postaci zanonimizowanej, są również wykorzystywane do dalszego rozwoju stosowanych technologii.
Metoda ataku
Naukowcy University of Cambridge udowodnili, że za pomocą specjalistycznej analizy nagrań z inteligentnych głośników, można wyodrębnić i zinterpretować dźwięki pracy na wirtualnej klawiaturze smartfona-a lub tabletu. Metoda ataku zakłada, że haker dokona manipulacji głośnika, w celu przejęcia jego mikrofonu, lub ma dostęp do nagrań wysłanych na zdalny serwer. Ofiara ataku musi używać swojego urządzenia w bezpośrednim otoczeniu nasłuchującego mikrofonu (nie dalej niż 50 centymetrów). Napastnik, by skutecznie przeprowadzić atak, powinien również znać model urządzenia, z którego korzysta ofiara.
Jak podsłuchać wirtualną klawiaturę?
Podczas prac badawczych, do rejestracji materiału audio, został wykorzystany moduł ReSpeaker. Jest to akcesorium w formie płyty rozszerzenia, przeznaczone do popularnego komputerka Raspberry Pi . To właśnie ono wykorzystywane jest do umożliwienia obsługi niektórych urządzeń przy pomocy asystentów głosowych od Google i Amazon. Jak uważają autorzy opracowania, pozyskany w ten sposób materiał audio jest analogiczny do tego jaki trafia na serwery operatorów usług za pośrednictwem inteligentnych głośników. Badania zespołu University of Cambridge udowodniły, że dźwięki towarzyszące użytkowaniu klawiatury wirtualnej smartfon-a czy tabletu (w trakcie prac użyto urządzeń HTC Nexus 9, Nokia 5.2 i Huawei Mate20 Pro) można doskonale rozpoznać poprzez analizę częstotliwości sygnału. Natomiast materiał z jakiego takie urządzenia są skonstruowane sprzyja pomyślnej rejestracji „stukania” klawiatury przez same mikrofony.
Analiza i odczytanie nagrań
W celu odfiltrowania z nagrań pożądanej zawartości, wykorzystano odpowiednio wytrenowaną AI. Do identyfikacji cyfr i liter użyto algorytmów pracujących w oparciu o zestawy kwantyfikatorów, właściwych dla danego modelu „podsłuchiwanego” urządzenia. Uzyskane wyniki sugerują, że możliwe jest odgadnięcie pięciocyfrowych numerów PIN ze skutecznością sięgającą 15% przypadków, tekst udało się natomiast odczytać z dokładnością do 50%.
Strach ma wielkie oczy?
Zarówno Amazon jak Google nie udostępniają próbek nagrań pozyskiwanych z ich urządzeń, dlatego naukowcy nie są w stanie jednoznacznie określić, czy opisana przez nich metoda ataku może być w praktyce skuteczna. Wydaje się, że znacznym są stosowane powszechnie mechaniczne zabezpieczenia w postaci etui i foli na ekranie. Tego typu akcesoria zmieniają akustykę urządzenia i mogą stanowić tym samym formę ochrony również przed jego podsłuchaniem. Niemniej, opracowanie zespołu naukowego University of Cambridge sygnalizuje zagrożenia jakie mogą płynąć z użytkowania urządzeń wyposażonych w aktywny mikrofon oraz konsekwencji gromadzenia danych audio pozyskanych tą drogą. Warto zatem pochylić się nad końcową konkluzją artykułu opisującego prace badawcze: „Ponieważ nasze domy stają się pełne zawsze włączonych mikrofonów, musimy przeanalizować konsekwencje.”