Sztuczna inteligencja AI (źródło: Pixabay)
Sztuczna inteligencja AI (źródło: Pixabay)

Voicebox, czyli generator mowy AI autorstwa Mety. Działa też po polsku!

Meta zaprezentowała Voicebox, który jest narzędziem opartym o sztuczną inteligencję, pozwalającym na przetwarzanie tekstu na mowę. Jak donosi Meta, ten generatywny model AI może wspomóc użytkowników w realizowaniu edycji dźwięku, samplowaniu czy stylizacji klipów audio.

Narzędzie, które usunie szumy i edytuje mowę

Oto kolejny, przełomowy etap w rozwoju generatorów mowy, opartych o sztuczną inteligencję. Voicebox jest modelem AI, który pozwala na wprowadzanie edycji, próbkowania czy stylizowania wszelkich dźwięków.

Możliwości nowego narzędzia firmy, o których wspominano już w lutym br., są szerokie. Wśród zadań modelu Meta wspomina także o edycji mowy, co umożliwia przetworzenie konkretnego fragmentu mowy. Jak ma to działać? Każda pomyłka w nagraniu jest często równoznaczna z ponowną rejestracją, teraz jednak będzie można łatwo zastąpić konkretne słowa. Szumy natomiast będą łatwo usuwane niczym gumką.

Dzięki temu systemowi użytkownicy otrzymają szansę na usunięcie niepotrzebnych dźwięków z plików audio. Oznacza to, że bez problemu będzie można wyciąć klaksony samochodowe czy szczekanie psa, które dotychczas niszczyło część klipu i zmuszało do ponownego nagrywania.

Co istotne, Voicebox jest narzędziem działającym w sześciu językach, w tym po polsku, a także po angielsku, francusku, niemiecku, hiszpańsku oraz portugalsku.

Ulepszenia klipów wprowadzane przez Voicebox i jego nauka języka naturalnego

Voicebox Mety będzie w stanie przeprowadzać syntezę tekstu na mowę, a wszystko to za pomocą jednej próbki audio. Jej minimalna długość to zaledwie dwie sekundy, która wystarczy na dopasowanie stylu audio oraz wykorzystanie go do generatora AI.

Proces edycji plików dźwiękowych w narzędziu Voicebox (źródło: Meta)
Proces edycji plików dźwiękowych w narzędziu Voicebox (źródło: Meta)

Najnowszy wytwór Mety jest innowacją, szczególnie, że z czasem tego typu modele będą mogły ulepszać asystentów czy postacie w metaverse, dodając naturalnie brzmiące głosy. Również osoby niewidome i niedowidzące będą mogły usłyszeć treść przesłanych do nich wiadomości tekstowych, które odczytane zostaną głosem adresata.

Możliwości nowego generatora (źródło: Meta)
Możliwości nowego generatora (źródło: Meta)

Nowa propozycja przedsiębiorstwa uczy się też na podstawie otrzymywanych danych, dzięki czemu generowane próbki są reprezentatywne, a algorytmy dostosowują się do danej mowy naturalnej w każdym z dostępnych języków.