Sztuczna inteligencja
Sztuczna inteligencja

AI Microsoftu potrafi sklonować głos z zaledwie 3-sekundowej próbki

Microsoft pochwalił się swoim nowym, wzbudzającym niepokój wynalazkiem AI. VALL-E potrafi naśladować dowolny głos na podstawie zaledwie kilkusekundowego nagrania.

Sztuczna inteligencja pokazuje swoje mroczne oblicze

Coraz trudniej jest się nam obejść bez sztucznej inteligencji. AI przewiduje tsunami, pomaga walczyć z marnowanie żywności i opracowywaniu nowych lekarstw. Zaczynają jednak na wierzch wychodzić problemy związane z jej stosowaniem: wykorzystanie prywatnych danych, kradzież i bezprawne wykorzystanie mienia intelektualnego, łamanie zabezpieczeń czy konflikty między sympatykami i przeciwnikami tej technologii. Najnowsze dzieło Microsoftu wzbudza głęboki niepokój i nasuwa sporo pomysłów na to, jak wykorzystać najnowsze rozwiązanie w bardzo złych celach…

Zespół naukowców, pracujących dla Microsoftu, opublikowało artykuł naukowy, dotyczący ich nowego dzieła – algorytmu, będącego w stanie skopiować głos dowolnej osoby. VALL-E potrafi nawet, do pewnego stopnia, zachować emocje i środowisko akustyczne mówiącego.

Schemat działania AI VALL-E
Schemat działania AI VALL-E

Drastycznie szybko uczące się AI

Naukowcy opisują VALL-E jako „model językowy kodeków neuronowych”, wyszkolony na 60 tysiącach godzin nagrań. Sztuczna inteligencja, zaprojektowana do realistycznego naśladowania ludzkiej mowy, istnieje już od jakiegoś czasu, ale VALL-E jest pierwszym tak realistycznie brzmiącym i przekonującym robotem.

AI, do sklonowania dowolnego głosu, wymaga jedynie 3-sekundowej próbki nagrania danej osoby. Następnie, przy pomocy interfejsu tekstowego, potrafi odczytać dane kwestie dokładnie w takim tonie, jaki został nauczony. Testy wykazały, że VALL-E przewyższa inne syntezatory tekst-mowa.

Nie jest natomiast jest pewne, w jaki sposób algorytm zostanie zabezpieczony tak, by powstrzymać oszustów przed wykorzystaniem go w celu np. wyłudzenia. Co do innych zastosowań – AI nie jest w stanie całkowicie zastąpić świetnych aktorów i lektorów w ich pracy, z racji trudnego zadania dostosowania tonu i emocji do tego co dzieje się w scenie. Na pewno będzie jednak stanowić atrakcyjną alternatywę dla firm tnących koszty w np. swoich działach obsługi klienta.

Próbki demo nowego algorytmu dostępne są do zapoznania się na platformie github.