Deezer chce pomóc w ochronie dzieci i młodzieży, które zbyt często słyszą wulgaryzmy. A ludzie lubią wulgaryzmy i chociaż język nam przez to chamieje, to brzydkie słowa stają się tak powszechne, że niemalże stanowią kanon nowej mowy. Upodobanie do tzw. brzydkich słów człowiek ma we krwi, ale niczym nie można usprawiedliwić ich nadmiernego używania.
Język jest czymś pasjonującym. Ostatnio pisałem o formach żeńskich i męskich w tłumaczeniach Google Translate. Dziś o wulgaryzmach, które istniały zanim człowiek wykształcił w sobie zdolność mówienia i pisania. Dziś stanowią jeden z najpopularniejszych przerywników w rozmowach, który świadczy raczej o braku kultury i wychowania niż o elokwencji.
Z naukowych dociekań wiadomo, że wulgaryzmy łączą się z emocjami, co wynika chociażby z tego, że podczas przeklinania w naszych mózgach wzmożoną pracę wykazują nie tyle części odpowiadające za mowę (ośrodek Broki czy Wernickiego) co części odpowiedzialne za emocje (np. jądro migdałowate).
Z faktów wiemy też, że wulgaryzmy to powszechnie stosowany środek stylistyczny w dziełach literackich już od starożytności. Świadczą o tym między innymi dzieła Arystofanesa z V w. p. n. e., który łączył język literacki z językiem prostego ateńskiego ludu.
Bez względu na cel i sposób użycia przekleństw uchodzą one za nieodpowiednie dla dzieci. Dlatego, na przykład w przemyśle filmowym stworzono oznaczenia „PG”, w Polsce w czasie chronionym zabronione jest nadawanie audycji lub innych przekazów zawierających sceny lub treści mogące mieć negatywny wpływ na prawidłowy fizyczny, psychiczny lub moralny rozwój małoletnich, a pozostałe audycje i przekazy muszą być oznaczone odpowiednimi znakami. Mało znaną ciekawostką jest też to, że programy „na żywo” często są transmitowane z kilkusekundowym opóźnieniem, by operatorzy mogli zareagować tzw. „ptaszkiem” wyciszającym nieprzewidziane brzydkie słowa lub frazy.
Podobnie jest w przemyśle muzycznym. Dla ochrony dzieci i młodzieży powszechnie stosuje się oznaczenie utworów słowem „explicit”. Jak istotne jest chronienie dzieci i młodzieży przed niewłaściwymi treściami nie trzeba nikogo przekonywać. By taką ochronę zapewnić musiały wytworzyć się odpowiednie narzędzia, które umożliwią „etykietowanie” twórczości artystów. Jak to się robi w muzyce?
Muzyka w liczbach
Muzyka to zapis dźwiękowy, który można opisać zarówno za pomocą notacji jak i przy użyciu wartości matematyczno-fizycznych. Współczesne teorie muzyczne mówią o silnych powiązaniach z matematyką. Wystarczy spojrzeć na wiele utworów Bacha, które przez badaczy określane są matematycznymi ze względu na ich symetryczną budowę. Nawet tworząca się obecnie i zdobywająca coraz większe uznanie PC Music oparta jest na powtarzalności określonych syntetycznych dźwięków. Muzykę można także opisać stosując zapis fizyczny, określając skalę, amplitudy, drgania i wiele innych wartości. Czy z takich danych można z łatwością usunąć to co szkodliwe dla najmłodszych?
Można, ale to skomplikowane
Obecnie większość pracy związanej z wycinaniem wulgarnych słów lub niestosownych wyrażeń dokonuje się przez obróbkę ręczną w studiu montażowym (czy to na potrzeby przemysłu filmowego czy muzycznego). Problemem jest to, że wytwórnie nie zawsze wykonują swoją pracę należycie, a nieoznaczenie utworów jako nienadających się dla niektórych grup wiekowych może pociągać za sobą przykre konsekwencje. Praca manualna jest też często żmudna i czasochłonna. Muzyczny serwis streamingowy Deezer stworzył eksperymentalny program, który przy pomocy Sztucznej Inteligencji ma wykonywać całą tę pracę z minimalną ingerencją człowieka.
Spleeter, bo tak nazywa się narzędzie zbudowane przez muzyczny serwis, wykorzystuje Sztuczną Inteligencję do rozdzielania utworów na części, które zawierają fragmenty z wokalem i fragmenty z muzyką. Za wyłapywanie nieodpowiednich słów w Spleeterze odpowiada technika, która została nazwana „Keyword Spotting System”. Oczywiście żeby program mógł dokonać tego dzieła konieczne było zastosowanie Uczenia Maszynowego i podanie algorytmom ogromnych ilości danych, które przetwarzane przez dłuższy czas pozwoliły określić takie reguły działania, które będą wskazywać konkretne miejsce w utworze, a nawet konkretne słowo. Sztuczna Inteligencja sprawia, że procesie ten dokonuje się sto razy szybciej niż normalnymi metodami. Taka szybkość działania jest pomocna szczególnie przy pracy nad ogromnymi paczkami danych.
Całość dokonuje się jedynie na podstawie posiadanego zapisu audio i Sztucznej Inteligencji. Trzeba sobie zdać sprawę z tego, że komputer nie słyszy dźwięku jak człowiek, a Sztuczna Inteligencja nie jest na tyle sprytna, żeby od razu wyłowić z gąszczu badanych danych konkretne słowa. Do tego należy wziąć pod uwagę, że niecenzuralne słowo wyśpiewane przez Nicki Minaj będzie brzmiało zupełnie inaczej niż to wyśpiewane przez Kanyego Westa.
Jeszcze wiele pracy
Podsumowaniem niech będą słowa Manuela Moussallama, który w Deezerze odpowiada za stworzenie Spleetera:
Po raz pierwszy w historii (według posiadanej przez nas wiedzy) zbadaliśmy możliwość budowy detektora treści opartego wyłącznie na dźwięku. Pomimo osiągnięcia zachęcających rezultatów podkreślamy, że maszyny nie wykonują tego w sposób w pełni zadowalający. (…) Naszą pracę można wykorzystać do budowy systemu, który będzie wspomagał ludzi. (…) W szerszej perspektywie naszym celem jest zdobycie wiedzy na temat milionów utworów i ulepszanie produktów od Deezer.