MyShell OpenVoice (źródło: research.myshell.ai)
MyShell OpenVoice (źródło: research.myshell.ai)

To narzędzie AI potrafi dokładnie odtworzyć barwę głosu, generując mowę w wielu językach i akcentach

W dzisiejszym szybko rozwijającym się świecie technologii, jednym z ciekawych osiągnięć jest otwartoźródłowe narzędzie do natychmiastowego klonowania głosu. Opracowane przez zespół badaczy z MIT, Uniwersytetu Tsinghua i kanadyjskiego startupu MyShell, OpenVoice wyróżnia się zdolnością do precyzyjnego i kontrolowanego odtwarzania głosów.

Co wyróżnia OpenVoice?

OpenVoice potrafi dokładnie odtworzyć barwę głosu referencyjnego, generując mowę w wielu językach i akcentach. Użytkownik ma pełną kontrolę nad stylem głosu, w tym nad emocjami, rytmem oraz intonacją. Program używa modelu tekst-na-mowę (TTS) jako bazy, definiując język, parametry stylu i podstawowy ton, wykorzystując 30000 próbek głosowych od 20000 osób.

Oddzielny konwerter barwy głosu następnie dostosowuje ton, aby dokładnie odpowiadał mówcy referencyjnemu, jednocześnie zachowując wszystkie inne zdefiniowane cechy. Dzięki swojej strukturze, pozwala na unikalne oddzielenie elementów klonowania głosu – barwy, stylów głosu i języków. To znaczące osiągnięcie pozwala także na manipulację różnymi parametrami i pozwala na przeskoczenie dotychczasowych ograniczeń odnoszących się do wielojęzycznych zbiorów danych, bez możliwości zmiany stylów głosu po klonowaniu.

Model OpenVoice (źródło: arxiv.org)
Podstawowy model głośnika służy do kontrolowania stylów i języków, a konwerter umożliwia odzwierciedlenie w mowie koloru tonu głośnika referencyjnego (źródło: maginative.com)

Dodatkowo wykorzystuje normalizujące przepływy, czyli odwracalną architekturę sieci neuronowej, która usuwa, a następnie ponownie odtwarza dane tonowe, bez utraty innych elementów wokalnych, takich jak akcent czy prozodia (brzmieniowe właściwości mowy nakładające się na głoskowy, sylabiczny i wyrazowy ciąg wypowiedz).

OpenVoice (źródło: research.myshell.ai)

Potencjalne zastosowania OpenVoice są ogromne i zróżnicowane, od usprawniania tworzenia treści multimedialnych po chatboty i interaktywne interfejsy AI. Łatwość obsługi i wydajność obliczeniowa sprawiają, że jest to realna opcja zarówno do celów komercyjnych, jak i badawczych.

Aby zachęcić do dalszych postępów w tej dziedzinie, badacze opublikowali kod źródłowy programu wraz z opisem modeli, aby przyspieszyć postęp w klonowaniu głosu. MyShell twierdzi, że wewnętrzna wersja była już używana przez użytkowników „dziesiątki milionów razy” w 2023 r., ponieważ obsługuje zaplecze MyShell.ai do natychmiastowego klonowania głosu.