W jednym z raportów ujawniono, iż marka OpenAI wykorzystywała publicznie dostępne filmy z YouTube’a do szkolenia swojego zaawansowanego modelu GPT-4. Jak się okazuje, nie tylko twórcy ChatGPT skorzystali z tego typu danych.
Skąd modele AI czerpią wiedzę?
Narzędzia sztucznej inteligencji opracowywane przez OpenAI stały się niezwykle popularne, a marka nieustannie je rozwija, rozszerzając ich funkcjonalność. Podstawą wszelkich aplikacji, w tym generatorów, takich jak ChatGPT czy Gemini, są modele AI.
Aby jednak możliwe było działanie wszelkich systemów, model musi czerpać dane z konkretnych treści, dokumentów, filmów czy np. książek. Okazuje się jednak, że marka OpenAI do opracowania swojego GPT-4 wykorzystała treści z platformy YouTube, która twierdzi, że fakt ten złamał zasady serwisu.
Jak wynika z raportu udostępnionego przez The New York Times, podczas tworzenia jednego z najnowszych modeli GPT-4 przedsiębiorstwo OpenAI wykorzystało ponad milion godzin transkrypcji wideo, udostępnionych na platformie YouTube.
Platforma YouTube źródłem dla modeli AI
Jeden z najważniejszych amerykańskich dzienników doniósł, iż zabiegu bezprawnego wykorzystania danych dokonano za pomocą narzędzia wewnętrznego o nazwie „Whisper”. Jego zadaniem jest tworzenie transkrypcji dźwięków pochodzących z filmu w tekst. Jak wynika z raportu, tak przetworzone informacje wykorzystano do przeszkolenia modelu GPT-4.
Według źródła, jeden z prezesów OpenAI, niejaki Greg Brockman, był zamieszany w wybór filmów, które firma miała zamiar użyć jako źródła dla modelu. Jak wynika z informacji, część pracowników wyraziła obawy, iż zabieg ten może nie być zgodny z zasadami platformy, jednak mimo to zdecydowano się na te działania. Neal Mohan, pełniący rolę dyrektora generalnego YouTube’a, już jakiś czas temu zaznaczył, iż przyjęte przez serwis warunki korzystania z usług nie zezwalają na użycie treści do tworzenia i szkolenia modeli AI.
Okazuje się jednak, że nie tylko OpenAI wykazało się „sprytem” podczas trenowania swoich technologii. W raporcie wspomniano także o tym, iż podobne działania wdrożył także gigant Google, aby przeszkolić model Gemini. Co ciekawe, jak zauważono w raporcie, zmiany w zakresie korzystania usług tej marki pozwoliły jej na użycie również publicznie dostępnych plików, w tym obecnych w Dokumentach czy Arkuszach oraz recenzji tworzonych w Mapach.