AI (źródło: Meta)
AI (źródło: Meta)

Meta AudioCraft – modele AI tworzące muzykę

Firma Meta zaprezentowała nowe narzędzie AudioCraft. Jego zadaniem jest generowanie utworów muzycznych, a działanie opiera się o trzy różne, rozbudowane modele. Gdzie sięgają źródła danych przez nie wykorzystywanych?

Źródła zasobów, które wspomagają generowanie muzyki

Meta zaprezentowała najnowsze narzędzie, oparte o sztuczną inteligencję. Pozwala ono na generowanie muzyki o wysokiej jakości i realistycznych dźwiękach, w oparciu o trzy wiodące modele – MusicGen, AudioGen oraz EnCodec.

Pierwszy z nich odpowiedzialny jest za zakres muzyczny własności Meta oraz specjalnie licencjonowanej, jak również dźwięki pochodzące z otoczenia czy natury.

Łączna liczba nagrań dla tego modelu obejmuje około 400 tysięcy różnych pozycji, które zostały dodane wraz z opisami tekstowymi i metadanymi. Liczba ta przekłada się na 20 tysięcy godzin muzyki. 

Drugi natomiast, znany pod nazwą AudioGen, wykorzystuje publiczne efekty dźwiękowe. Ostatni z modeli, nazywany dekoderem, pozwala na tworzenie muzyki o wysokiej jakości, pozbawionej części artefaktów.

Meta udziela powszechnego dostępu do swoich modeli AI

Wdrożone do AudioCraft modele dostępne są na zasadzie open source, dzięki czemu specjaliści mogą z nich powszechnie korzystać, a także w oparciu o nie rozwijać własne generatywne narzędzia. Jak twierdzą twórcy najnowszej propozycji Meta, powstawanie dźwięków nie jest dla AI prostym zadaniem, wymaga złożonych sygnałów oraz wielkoskalowych wzorców.

AudioCraft (źródło: Meta)
AudioCraft (źródło: Meta)

AudioCraft, nazywana także rodziną modeli, jest jednak w stanie generować wysokiej jakości muzyczne utwory, które charakteryzują się spójnością oraz łatwością użycia. Narzędzie to jest sposobem na tworzenie i kompresowanie dźwięków i muzyki, a wszystko to w jednym miejscu.

Jak twierdzą specjaliści Meta, wygenerowanie kilkuminutowej ścieżki dźwiękowej jest próbkowane z częstotliwością na poziomie 44,1 kHz, co jednak przekłada się na milionowe kroki czasowe. Dlatego też, aby możliwe było stworzenie generatora muzyki, badacze opracowali neuronowy kodek audio, nazwany EnCodec, który jest formą „słownictwa”, stanowiącego podstawę opracowywanych próbek muzycznych.