ElevenLabs to polski projekt, stojący za zaawansowanym modelem AI, który pozwala przekształcać tekst na mowę oraz klonować dowolny głos. Inwestorzy dostrzegli potencjał spółki i wzmocnili ją zawrotnymi 2 milionami dolarów.
Co potrafi model TTS od Elevenlabs? I co ma z nim wspólnego DiCaprio?
Okazuje się, że Polacy też potrafią w sztuczną inteligencję, a przynajmniej ta dwójka — Piotr Dąbrowski, niegdyś pracownik Google, oraz Mati Staniszewski, wcześniej związany z firmą Palantir. W 2022 roku założyli startup o nazwie ElevenLabs, zajmujący się rozwijaniem autorskiego modelu TTS (text-to-speech), a mówiąc prościej — algorytmów AI, które syntezują tekst w mowę. Algorytmy te skalibrowane są tak, by wybrany narrator w najbardziej „ludzki” sposób odczytał wpisaną przez użytkownika treść, dbając o odpowiednią intonację oraz fleksję. Trzeba przyznać, że efekt jest wyśmienity i już teraz przewyższa to, co zaproponowała firma Apple w swojej aplikacji Books.
To nie wszystko, polska spółka zbudowała również własny model klonowania głosu. Dość niezwykły, gdyż zdolny uzyskać duże podobieństwo do próbki wyjściowej bez czasochłonnego treningu, nawet wtedy, gdy ta ma długość kilku sekund. Dzięki temu już w niedalekiej przyszłości bot może posłużyć do generowania tłumaczeń filmów na inne języki, zachowując oryginalną barwę i styl grających tam aktorów. Na razie klonowanie jest dostępne tylko w języku angielskim, ale twórcy przebąkują, że język polski zostanie wprowadzony w drugim kwartale tego roku.
Warto wspomnieć, że za sprawą właśnie tej funkcji startup zyskał szerszą popularność. We wrześniu ubiegłego roku ElevenLabs zademonstrował możliwości swojego generatora mowy na platformie YouTube, zastępując głos Leonardo DiCaprio głosami innych sław, takich jak Joe Rogan, Steve Jobs, Robert Downey Jr., Bill Gates i Kim Kardashian. Ten krok przyciągnął uwagę internautów oraz mainstreamowych mediów.
Start platformy, milionowe finansowanie i małe zamieszanie z Deepfake’ami
Początek roku 2023 był dla polskiego duetu bardzo udany, spółce udało się uzyskać spore dofinansowanie na dalszy rozwój prac od czeskiego Credo Ventures, brytyjskiego Concept Ventures, a także od kilku inwestorów indywidualnych. W rundzie wstępnej zebrano 2 milionów dolarów, co wyraźnie pokazuje potencjał tego narzędzia i wyłaniającą się przed nim perspektywę szerokiej adopcji.
– Już podczas naszego pierwszego spotkania zobaczyliśmy głód w oczach Matiego i Piotra. Kilka miesięcy później stali się centrum badawczym technologii mowy klasy OpenAI, pokonując największe wyzwania związane ze sztucznym dźwiękiem.
– ocenił projekt Maciej Gnutek z Credo Ventures
Równolegle pod adresem beta.elevenlabs.io ruszyła platforma internetowa dla twórców, oferująca sześć pakietów w różnych cenach i konfiguracjach, w tym jeden darmowy. Najdroższy z nich skierowany jest do firm, które oczekują niestandardowych rozwiązań i jego ceny są płynne, co oznacza, że ilość benefitów wchodzących w skład usługi oraz kwota miesięcznej subskrypcji są wyceniane indywidualnie. Progiem startowym jest 500 dolarów miesięcznie. Niestandardowe limity dla syntezy mowy są dostępne tylko tam, ponieważ pozostałe pakiety mają odgórnie ograniczoną liczbę znaków adekwatnie do stawki abonamentu.
Z technologią firmy ElevenLabs zapoznać się można całkowicie za darmo zarówno bez rejestracji na stronie głównej (istnieje tam możliwość wygenerowania mp3 z tekstu o długości 3300 znaków), jak i zakładając bezpłatne konto na platformie, które uprawnia do przetworzenia 10 tysięcy znaków w ciągu miesiąca. Rzecz jasna taka opcja nie zawiera licencji komercyjnej.
Niestety, dobre chęci firmy obróciły się przeciw niej, gdy członkowie serwisu 4chan, słynący z internetowych wygłupów, postanowili wykorzystać wolny dostęp do algorytmu, by stworzyć kilka deepfake’ów z głosami znanych osób. W jednym z nich były prezydent Donald Trump opowiada o tym, jak The Last Of Us uczyniło Rona Swansona gejem, a w innym Emma Watson czyta powieść znanego Austriaka zatytułowaną Main Kampf.
Po tych wydarzeniach startup postanowił wprowadzić więcej zabezpieczeń, które obejmują wymaganie pełnej identyfikacji tożsamości, aby skorzystać z opcji klonowania głosu oraz weryfikację ręczną tego rodzaju zleceń.
Do czego przyda się produkt ElevenLabs? Jakie firma ma plany?
ElevenLabs ma ambitne cele krótko i długoterminowe. Po pierwsze pełne wdrożenie funkcji „Design Voice”, która pojawi się w VoiceLab i która umożliwi użytkownikowi wygenerowanie unikalnego cyfrowego głosu poprzez dobór parametrów, takich jak płeć, wiek, akcent, tembr i sposób mówienia. Według twórców będzie to gratka dla autorów książek, twórców gier i osób związanych z marketingiem, która pozwoli dostosować styl narracji do klimatu ich dzieła lub kampanii. W perspektywie krótkoterminowej startup ma nadzieję również na to, że jego rozwiązanie będzie działać we wszystkich językach.
Natomiast celem długoterminowym jest urzeczywistnienie obsługi wielojęzycznego dźwięku na żądanie w usługach streamingowych, audiobookach, grach, filmach, a nawet podczas rozmów – to wszystko w czasie rzeczywistym. Bez wątpienia z roku na rok rynek na tego typu usługi będzie się powiększał, być może nawet wykładniczo. Już teraz widzimy, jak tuzy pokroju Disney’a coraz śmielej wykorzystują w swoich produkcjach narzędzia oparte o AI zarówno do syntezy mowy, jak i do odmładzania aktorów.
Odnosząc się do powyższego — sądzę, że ElevenLabs ma zaplecze, by pewnego dnia stanąć w równym szeregu z firmą Respeecher. No i tego też im życzę.