Naukowcy z Uniwersytetu Carnegie Mellon (CMU) opracowali nowy generator muzyki, oparty o sztuczną inteligencję. Użytkownicy mogą tworzyć dzieła w oparciu o przesłane, istniejące już utwory czy podpowiedzi tekstowe oraz ingerować w ich tempo, melodię, rytm czy nastrój.
AI w procesie tworzenia muzyki
Sztuczna inteligencja staje się coraz bardziej rozpowszechniona. Z każdym kolejnym dniem można usłyszeć o nowych technologiach, narzędziach czy systemach, które mają jeszcze bardziej uprościć nasze życie. AI wkracza do robotyki, ale i angażuje się w ludzką twórczość, w tym tworzenie tekstów czy grafik.
Choć możemy już natknąć się na generatory wideo czy dźwięków, ich działanie nadal pozostawia wiele do życzenia. Jednym z nich jest Udio, opracowany przez byłych badaczy z Google DeepMind, któremu daleko do ideału, a osoby korzystające z aplikacji nie mają wystarczających możliwości, aby szczegółowo ingerować w tworzony utwór. Naukowcy biorą sprawy w swoje ręce i wspierają technologicznych gigantów w tworzeniu oprogramowania, które będzie jeszcze bardziej przydatne profesjonalistom.
Nowy generator muzyki z szerokim wachlarzem funkcji
Badacze z Uniwersytetu Carnegie Mellon wraz z Adobe opracowali narzędzie Music ControlNet, które pozwala użytkownikom na generowanie muzyki z pełną kontrolą najważniejszych jej elementów. Twórcy korzystający z oprogramowania mają wpływ nie tylko na ogólny charakter powstających utworów, ale także na melodię, rytm czy dynamikę. Użytkownik oprogramowania może według własnego uznania wprowadzać różnorodne zmiany do tworzonej muzyki. Możliwe jest odtwarzanie, komponowanie czy dodawanie dowolnych elementów, a następnie za pomocą podpowiedzi tekstowych łączenie ich w jednolitą całość.
Co niezwykle istotne i wyróżniające na tle innych generatorów – Music ControlNet pozwala na pracę z użytkownikiem, który może przesłać własne melodie czy inne dane wejściowe. Dzięki temu charakter czy styl danego utworu będzie zbliżony do oryginalnego.
Do działania generator wykorzystuje obraz sterowany na poziomie pikseli. Oznacza to, że system otrzymuje dane wejściowe, wybraną przez twórcę melodię, rytm, charakter, gatunek, nastrój oraz tempo, a także przekazane podpowiedzi tekstowe, i przetwarza zebrane informacje w „obrazową reprezentację muzyki”. Ta forma konwertowana jest następnie na właściwe dźwięki. Z wieloma próbkami utworzonej muzyki można zapoznać się na stronie projektu.