Syntezatory mowy zrobiły ogromny postęp od czasów doskonale wszystkim znanej Ivony, lecz wciąż nie pozwalają na pełną personalizację brzmienia głosu. Ma się to zmienić dzięki nowemu projektowi Xiaomi AI Lab, skierowanemu do osób z zaburzeniami mowy. Dzięki temu wyjątkowemu TTS, osoby te będą mogły komunikować się za pomocą „swojego własnego” głosu.
Xiaomi uruchamia projekt „Own My Voice”
Laboratorium Xiaomi, zajmujące się opracowywaniem i wykorzystywaniem sztucznej inteligencji, prowadzi projekt badawczy „Own My Voice”, którego celem jest przełamanie kolejnych barier wśród osób z niepełnosprawnościami. Owocem pracy zespołu badawczego firmy jest najnowsze rozwiązanie zwiększające komfort życia cierpiących na zaburzenia mowy. Producent udostępni im zestaw spersonalizowanych, naturalnie brzmiących głosów dla technologii Text-To-Speech.
Xiaomi zebrało do tego projektu ponad 200 ochotników, od których zarejestrowano próbki mowy, a następnie poddano analizie z wykorzystaniem algorytmów AI. W ten sposób udało się ustalić odpowiednie brzmienie głosu referencyjnego dla osoby z zaburzeniami mowy, a następnie zmodyfikować jego brzmienie w celu zachowania prywatności osób, które użyczyły swojego głosu do nagrań.
Specjaliści następnie wykorzystali technologię TTS do wytrenowania modelu sztucznej inteligencji w celu nadania mu bardziej naturalnego brzmienia, odwzorowującego naturalny ton mowy człowieka i stojące za nim emocje. W ten sposób udało się uzyskać syntezator mowy, brzmiący niemal całkowicie jak prawdziwa mowa ludzka, uwzględniając w tym intonację, pauzy, szybkość mowy i wiele innych.
Xiaomi podkreśla, że dotychczas podobne technologie były wykorzystywane w syntezowaniu mowy asystentów głosowych, natomiast obecnie mogą służyć przełamywaniu barier niepełnosprawności i poprawianiu komfortu życia osób z zaburzeniami mowy. Dzięki wielu zaawansowanym algorytmom możliwe jest nie tylko ułatwienie funkcjonowania takim osobom, lecz przy okazji stworzenie nowej technologii syntezy mowy, zapewniającej unikalność, bezpieczeństwo i autentyczność takiego głosu.
Firma ma zamiar sprawdzić czy wykreowane rozwiązanie przypadnie do gustu potencjalnym użytkownikom. Na podstawie informacji zwrotnych technologia może zostać usprawniona, by jak najlepiej spełniać potrzeby osób, które potrzebują takich rozwiązań dla sprawnej komunikacji z innymi.