Tłumacz

Słowo o Tłumaczu Google i sztucznej inteligencji, która za nim stoi

Wszyscy znamy Tłumacza Google, a większość z nas pewnie z niego korzysta. Może zauważyliście, że w ostatnich latach dokładność i poprawność jego tłumaczeń zmieniła się diametralnie. Kiedy Google pokazało światu Tłumacza, ponad dekadę temu, był to zwykły algorytm – działał jak słownik. Od kilku lat kalifornijski gigant wprowadza jednak do swojej usługi sztuczną inteligencję, która do dziś zdążyła zmienić nasz sposób patrzenia na obce języki. A oto, jak ona działa.

Stare, (nie tak) dobre czasy

Słowo o Tłumaczu Google i sztucznej inteligencji, która za nim stoi
Przykład działania poprzedniego i nowego translatora Google (fot. Analytics India Mag)

Największą różnicę w jakości translatora dało wprowadzenie GNMT, czyli neuronowego tłumaczenia maszynowego Google. Ten model sztucznej inteligencji sprawił, że aż 60% mniej tłumaczonych zdań miało w sobie błędy (w porównaniu do zwykłego algorytmu). Działa on w sposób podobny do AI, które odtworzyło Pac-Mana. Mianowicie, składa się z dwóch sieci neuronowych – jednej, która zakodowuje informacje (encoder), i drugiej, która je odkodowuje (decoder).

Słowo o Tłumaczu Google i sztucznej inteligencji, która za nim stoi
Jak działa ten model AI (fot. Analytics India Mag)

Zalety sztucznej inteligencji

Po sukcesie pierwszej iteracji Tłumacza z GNMT, Google chciało rozwinąć swój produkt, dodając nowe języki. Wszystko to działo się na przestrzeni lat 2014-2016, chociaż dokładnie nie możemy stwierdzić. Był to też okres, w którym firma znacząco rozwinęła swojego Asystenta. Pokazuje nam to tylko, że jedna myśl przewodnia może posłużyć do ulepszenia wielu produktów.

Przechodząc jednak do Tłumacza, Gigant z Doliny Krzemowej, po przetrenowaniu modelu GNMT na kilkunastu parach języków (z ludzkim nadzorem i poprawkami), chciał sprawdzić, jak poradzi on sobie z tłumaczeniem pomiędzy językiem koreańskim, a japońskim. Na takiej dwójce model GNMT nie był uczony.

Słowo o Tłumaczu Google i sztucznej inteligencji, która za nim stoi
Translacja pomiędzy parami języków (fot. Analytics India Mag)

Ku zaskoczeniu Google, wyniki tego eksperymentu były bardzo dobre. GNMT radził sobie z poprawnymi tłumaczeniami między nowymi parami języków. Co to oznaczało? Model GNMT mógł stać się w końcu podstawą translatora. I tak oto w 2016 roku po raz pierwszy Google całkowicie porzuciło algorytmiczne podejście do problemu, nazywając ten nowy sposób tłumaczenia zero-shot.

Sukces rodzi sukces

Następnym krokiem Google było wprowadzenie Transformatora, czyli rozwinięcia modelu AI. Zmienił on sposób, w jaki patrzymy na język. Na przykład, jeśli w zdaniu „Na końcu plaży doszedłem do latarni”, ostatni wyraz nie odnosi się do latarni morskiej, lecz np. do zwykłej lampy, Transformator mógł rozpoznać tę różnicę i wprowadzić ją do modelu GNMT. W skrócie, rozpoznaje on kontekst wypowiedzi.

Deweloperzy mogą także zwizualizować „wędrówkę” translatora po kolejnych częściach zdania wprowadzonego, kiedy to każde słowo tłumaczone jest do zdania wyjściowego. Widać to dobrze na poniższej grafice. Wszystko to właśnie dzięki Transformatorowi.

Słowo o Tłumaczu Google i sztucznej inteligencji, która za nim stoi
Wędrówka po częściach zdania (fot. Analytics India Mag)

Tłumacz to nie tylko tekst

5 lat temu Google ogłosiło translację przez obrazy. Robimy zdjęcie, a tekst w nim zostaje przetłumaczony z wielu języków na jeden – ten nasz. Co więcej, funkcja miała działać w czasie rzeczywistym, bez konieczności przetwarzania każdego zdjęcia. I chociaż dziś, w roku 2020, wszyscy jesteśmy zaznajomieni z owym narzędziem, kilka lat temu była to nowość. Jak więc ono działa?

Po pierwsze, algorytmy napędzane AI muszą znaleźć tekst na obrazku. Następnie, tekst ten jest izolowany od tła, np. drzew czy samochodów. W tym celu analizuje się różnice między kolorami w obrębie kilku pikseli. Ten sam kolor – ta sama litera.

Następnie aplikacja odczytuje tekst. Za rozpoznanie liter odpowiadają „splotowe” sieci neuronowe. W ostatnim kroku tekst ten jest tłumaczony i wyświetlany w tym samym stylu, jak na obrazku.

Ale to nie wszystko. Google przecież stawia na używanie głosu – chociażby w swoich Pixel Buds 2. Aby wyświetlić tekst mówiony w aplikacji, potrzebny jest pośredni krok. Model AI analizuje przebieg sygnału (waveform). Każda mówiona zgłoska, choć różni się u każdego z nas, ma swoją reprezentację dźwiękową. Najtrudniejszym elementem układanki, z którym Google wciąż się boryka, jest uwzględnienie wszystkich akcentów i sposobów mówienia. To dlatego Tłumacz czasami nie rozpoznaje naszych słów. Lecz, w porównaniu z rokiem 2015, nie mamy na co narzekać.

Ciekawy jest jeszcze fakt, że w modelu Translatotron, który tłumaczy nasze słowa ponownie na zdania mówione, ten pośredni krok nie jest potrzebny. A w dodatku – co za nazwa!

Według mnie, narzędzie to jest jednym z najciekawszych i najbardziej intrygujących pod względem działania. Mam nadzieję, że teraz lepiej wiesz, jak funkcjonuje.