Meta zaprezentowała Voicebox, który jest narzędziem opartym o sztuczną inteligencję, pozwalającym na przetwarzanie tekstu na mowę. Jak donosi Meta, ten generatywny model AI może wspomóc użytkowników w realizowaniu edycji dźwięku, samplowaniu czy stylizacji klipów audio.
Narzędzie, które usunie szumy i edytuje mowę
Oto kolejny, przełomowy etap w rozwoju generatorów mowy, opartych o sztuczną inteligencję. Voicebox jest modelem AI, który pozwala na wprowadzanie edycji, próbkowania czy stylizowania wszelkich dźwięków.
Możliwości nowego narzędzia firmy, o których wspominano już w lutym br., są szerokie. Wśród zadań modelu Meta wspomina także o edycji mowy, co umożliwia przetworzenie konkretnego fragmentu mowy. Jak ma to działać? Każda pomyłka w nagraniu jest często równoznaczna z ponowną rejestracją, teraz jednak będzie można łatwo zastąpić konkretne słowa. Szumy natomiast będą łatwo usuwane niczym gumką.
Dzięki temu systemowi użytkownicy otrzymają szansę na usunięcie niepotrzebnych dźwięków z plików audio. Oznacza to, że bez problemu będzie można wyciąć klaksony samochodowe czy szczekanie psa, które dotychczas niszczyło część klipu i zmuszało do ponownego nagrywania.
Co istotne, Voicebox jest narzędziem działającym w sześciu językach, w tym po polsku, a także po angielsku, francusku, niemiecku, hiszpańsku oraz portugalsku.
Ulepszenia klipów wprowadzane przez Voicebox i jego nauka języka naturalnego
Voicebox Mety będzie w stanie przeprowadzać syntezę tekstu na mowę, a wszystko to za pomocą jednej próbki audio. Jej minimalna długość to zaledwie dwie sekundy, która wystarczy na dopasowanie stylu audio oraz wykorzystanie go do generatora AI.
![Voicebox, czyli generator mowy AI autorstwa Mety. Działa też po polsku! Proces edycji plików dźwiękowych w narzędziu Voicebox (źródło: Meta)](https://oiot.pl/wp-content/uploads/2023/06/voicebox-meta-1.jpg)
Najnowszy wytwór Mety jest innowacją, szczególnie, że z czasem tego typu modele będą mogły ulepszać asystentów czy postacie w metaverse, dodając naturalnie brzmiące głosy. Również osoby niewidome i niedowidzące będą mogły usłyszeć treść przesłanych do nich wiadomości tekstowych, które odczytane zostaną głosem adresata.
![Voicebox, czyli generator mowy AI autorstwa Mety. Działa też po polsku! Możliwości nowego generatora (źródło: Meta)](https://oiot.pl/wp-content/uploads/2023/06/voicebox-meta-2.jpg)
Nowa propozycja przedsiębiorstwa uczy się też na podstawie otrzymywanych danych, dzięki czemu generowane próbki są reprezentatywne, a algorytmy dostosowują się do danej mowy naturalnej w każdym z dostępnych języków.