OpenAI pokazało kolejne możliwości swojego wiodącego produktu. ChatGPT pozwoli na głosowe prowadzenie konwersacji z botem czy też pomoc w rozwiązaniu problemów w oparciu o przesłane grafiki. Firma prowadzi również współpracę ze Spotify, konwertując treści na inne języki.
Konwersacja głosowa z botem sztucznej inteligencji
Rozwój sztucznej inteligencji przez ostatni rok był szybki i bardzo owocny, a cała ta machina ruszyła w momencie, gdy firma OpenAI udostępniła swój produkt w postaci bota AI. ChatGPT wstrząsnął technologicznym światem, a teraz przez wiele osób jest już używany każdego dnia, nie tylko w pracy, ale również do planowania podróży czy poszukiwania ciekawych informacji.
ChatGPT jest nieustannie aktualizowany, a jego funkcjonalność poszerza się o nowe możliwości kierowane do użytkowników. Właśnie w ten sposób chatbot AI będzie mógł obsługiwać polecenia głosowe oraz zadania, które zostały oparte o obrazy. Nowe opcje trafiają już do osób posiadających wykupioną subskrypcję Plus oraz Enterprise.
Uruchomienie funkcji głosowych wymaga przejścia do ustawień aplikacji ChatGPT, dostępnej na iOS i Androidzie, a następnie wyrażenia zgody na rozmowy oraz wybór jednego z pięciu głosów. Konwersacje przeprowadzane są za pomocą osobnego, nowego modelu zamiany tekstu na mowę, który generuje podobny do ludzkiego głos. Opracowane głosy powstały przy współpracy z profesjonalnymi aktorami.
Rozpoznawanie i analiza obrazów w ChatGPT
ChatGPT ma teraz pomóc również w problemach w oparciu o przesłane mu grafiki. Może wykazać się w prostych naprawach czy zasugerować przepis na podstawie zawartości lodówki, której zdjęcie wnętrza przekaże użytkownik. Podobnie sprawa ma się w przypadku zadań matematycznych, rozwiązywanych przez bota AI.
Rozpoznawanie obrazów zostało oparte o modele GPT-3.5 oraz GPT-4. Użytkownik może przesyłać za jednym razem kilka różnych zdjęć, a nawet wprowadzać uwagi za pomocą narzędzia do rysowania, które na przykład określi najważniejszą część grafiki.
Aby nowe funkcje związane z przekazywaniem do bota grafiki były możliwe, firma OpenAI wykorzystała darmową aplikację dla niewidomych, znaną jako Be My Eyes. Pomaga to nie tylko analizować zdjęcia i przedstawione na nich osoby, ale także szanować ich prywatność, tworząc GPT-4 z funkcją wizyjną.
Współpraca OpenAI i Spotify
Wiodącym językiem ChatGPT jest angielski, a samo OpenAI przyznaje, że bot w innych językach radzi sobie słabo. Mimo to, Spotify podejmuje się współpracy z autorami bota, chcąc skorzystać z jego możliwości w technologiach głosowych. Popularny serwis streamingowy planuje wprowadzenie pilotażu o nazwie Voice Translation, dedykowanego dla podcasterów.
Opcja ta oznacza, że Spotify wprowadzi opcje tłumaczenia treści na inne języki, używając głosów osób prowadzących dany podcast, tyle, że przekonwertowanych. W taki właśnie sposób angielskie wersje niektórych odcinków serii Fotel Expert oraz The Diary of a CEO są już dostępne w języku hiszpańskim, a w planach jest konwertowanie także na francuski i niemiecki.