Meta zaprezentowała Voicebox, który jest narzędziem opartym o sztuczną inteligencję, pozwalającym na przetwarzanie tekstu na mowę. Jak donosi Meta, ten generatywny model AI może wspomóc użytkowników w realizowaniu edycji dźwięku, samplowaniu czy stylizacji klipów audio.
Narzędzie, które usunie szumy i edytuje mowę
Oto kolejny, przełomowy etap w rozwoju generatorów mowy, opartych o sztuczną inteligencję. Voicebox jest modelem AI, który pozwala na wprowadzanie edycji, próbkowania czy stylizowania wszelkich dźwięków.
Możliwości nowego narzędzia firmy, o których wspominano już w lutym br., są szerokie. Wśród zadań modelu Meta wspomina także o edycji mowy, co umożliwia przetworzenie konkretnego fragmentu mowy. Jak ma to działać? Każda pomyłka w nagraniu jest często równoznaczna z ponowną rejestracją, teraz jednak będzie można łatwo zastąpić konkretne słowa. Szumy natomiast będą łatwo usuwane niczym gumką.
Dzięki temu systemowi użytkownicy otrzymają szansę na usunięcie niepotrzebnych dźwięków z plików audio. Oznacza to, że bez problemu będzie można wyciąć klaksony samochodowe czy szczekanie psa, które dotychczas niszczyło część klipu i zmuszało do ponownego nagrywania.
Co istotne, Voicebox jest narzędziem działającym w sześciu językach, w tym po polsku, a także po angielsku, francusku, niemiecku, hiszpańsku oraz portugalsku.
Ulepszenia klipów wprowadzane przez Voicebox i jego nauka języka naturalnego
Voicebox Mety będzie w stanie przeprowadzać syntezę tekstu na mowę, a wszystko to za pomocą jednej próbki audio. Jej minimalna długość to zaledwie dwie sekundy, która wystarczy na dopasowanie stylu audio oraz wykorzystanie go do generatora AI.
Najnowszy wytwór Mety jest innowacją, szczególnie, że z czasem tego typu modele będą mogły ulepszać asystentów czy postacie w metaverse, dodając naturalnie brzmiące głosy. Również osoby niewidome i niedowidzące będą mogły usłyszeć treść przesłanych do nich wiadomości tekstowych, które odczytane zostaną głosem adresata.
Nowa propozycja przedsiębiorstwa uczy się też na podstawie otrzymywanych danych, dzięki czemu generowane próbki są reprezentatywne, a algorytmy dostosowują się do danej mowy naturalnej w każdym z dostępnych języków.