Głos Sir Davida Attenborougha znany jest nam wszystkim z licznych filmów przyrodniczych. Nawet, jeśli oglądaliśmy programy z lektorem, z pewnością go skojarzymy. Teraz sztuczna inteligencja może generować jego głos, a 97-letni narrator twierdzi, że możliwości oprogramowania są niepokojące i mogą niewłaściwie przedstawiać jego własne przekonania. Czy obawy są słuszne?
Znany głos przyrodnika i sztuczna inteligencja
Charlie Holtz to twórca licznych aplikacji, gier czy sieci społecznościowych. Do opracowywania efektów swojej pracy, sukcesywnie publikowanych w serwisie X, wykorzystuje sztuczną inteligencję. Jednak ostatnio programista wykazał się sporym polotem, który poruszył nawet 97-letniego Davida Attenborougha, biologa, którego znamy z wielu filmów przyrodniczych.
Holtz wykorzystał technologię GPT-4 Vision oraz Eleven Labs, służącą do klonowania głosu. Połączenie tych dwóch technologii pozwoliło na opracowanie nieautoryzowanego programu. Jego zadaniem jest generowanie opowieści o osobie, siedzącej przed kamerą. Treść jest przekazywana przez głos naśladujący Davida Attenborougha.
W praktyce, siedzący przed kamerą Charlie Holtz, opisywany jest niczym obiekt przyrodniczy, a wszystko to przekazywane jest kojącym głosem narratora. Sztuczna inteligencja na początku opisuje go jako „niezwykły okaz Homo sapiens”.
System został oparty o znane już technologie, takie jak model językowy GPT-4 Vision i klonowanie głosu Eleven Labs. Całość danych gromadzona jest w skrypcie tworzonym w języku Python. Oprogramowanie jest odpowiedzialne za wykonanie zdjęcia z przerwami co 5 sekund, a podgląd kierowany jest do modelu językowego. Obraz wykonany kamerą staje się więc daną wejściową. Sztuczna inteligencja generuje opis i kieruje go do technologii Eleven Labs, który wykorzystuje próbki głosu przyrodnika.
Komentarz Sir Davida Attenborougha
Pomimo sędziwego wieku narrator i podróżnik zabrał głos, wyrażając w swojej wypowiedzi pewie niepokój. Głównym jego powodem jest to, iż tego typu deepfake może wprowadzać w błąd, generować fałszywe informacje i, co najważniejsze, nie być zgodnym z przekonaniami narratora.
Choć program ma potencjał, jest dokładny, kreatywny oraz doskonale naśladuje nie tylko głos, ale również ton i styl Attenborougha, pokazuje niebezpieczeństwa, jakie może nieść za sobą sztuczna inteligencja. Mimo to, prace nad AI są kontynuowane. Często sami twórcy angażują się w powstawanie różnego rodzaju oprogramowania, wyrażając zgodę na wykorzystanie swojego głosu. Jednym z przykładów jest funkcja Dream Tracks, tworzona na platformie YouTube.