Nowe opcje ChatGPT (źródło: OpenAI)
Nowe opcje ChatGPT (źródło: OpenAI)

ChatGPT pozwoli prowadzić głosową konwersację oraz przeanalizuje przesłane zdjęcia

OpenAI pokazało kolejne możliwości swojego wiodącego produktu. ChatGPT pozwoli na głosowe prowadzenie konwersacji z botem czy też pomoc w rozwiązaniu problemów w oparciu o przesłane grafiki. Firma prowadzi również współpracę ze Spotify, konwertując treści na inne języki.

Konwersacja głosowa z botem sztucznej inteligencji

Rozwój sztucznej inteligencji przez ostatni rok był szybki i bardzo owocny, a cała ta machina ruszyła w momencie, gdy firma OpenAI udostępniła swój produkt w postaci bota AI. ChatGPT wstrząsnął technologicznym światem, a teraz przez wiele osób jest już używany każdego dnia, nie tylko w pracy, ale również do planowania podróży czy poszukiwania ciekawych informacji.

ChatGPT jest nieustannie aktualizowany, a jego funkcjonalność poszerza się o nowe możliwości kierowane do użytkowników. Właśnie w ten sposób chatbot AI będzie mógł obsługiwać polecenia głosowe oraz zadania, które zostały oparte o obrazy. Nowe opcje trafiają już do osób posiadających wykupioną subskrypcję Plus oraz Enterprise.

Uruchomienie funkcji głosowych wymaga przejścia do ustawień aplikacji ChatGPT, dostępnej na iOS i Androidzie, a następnie wyrażenia zgody na rozmowy oraz wybór jednego z pięciu głosów. Konwersacje przeprowadzane są za pomocą osobnego, nowego modelu zamiany tekstu na mowę, który generuje podobny do ludzkiego głos. Opracowane głosy powstały przy współpracy z profesjonalnymi aktorami.

Rozpoznawanie i analiza obrazów w ChatGPT

ChatGPT ma teraz pomóc również w problemach w oparciu o przesłane mu grafiki. Może wykazać się w prostych naprawach czy zasugerować przepis na podstawie zawartości lodówki, której zdjęcie wnętrza przekaże użytkownik. Podobnie sprawa ma się w przypadku zadań matematycznych, rozwiązywanych przez bota AI.

Rozpoznawanie obrazów zostało oparte o modele GPT-3.5 oraz GPT-4. Użytkownik może przesyłać za jednym razem kilka różnych zdjęć, a nawet wprowadzać uwagi za pomocą narzędzia do rysowania, które na przykład określi najważniejszą część grafiki.

Aby nowe funkcje związane z przekazywaniem do bota grafiki były możliwe, firma OpenAI wykorzystała darmową aplikację dla niewidomych, znaną jako Be My Eyes. Pomaga to nie tylko analizować zdjęcia i przedstawione na nich osoby, ale także szanować ich prywatność, tworząc GPT-4 z funkcją wizyjną.

Współpraca OpenAI i Spotify

Wiodącym językiem ChatGPT jest angielski, a samo OpenAI przyznaje, że bot w innych językach radzi sobie słabo. Mimo to, Spotify podejmuje się współpracy z autorami bota, chcąc skorzystać z jego możliwości w technologiach głosowych. Popularny serwis streamingowy planuje wprowadzenie pilotażu o nazwie Voice Translation, dedykowanego dla podcasterów.

Opcja ta oznacza, że Spotify wprowadzi opcje tłumaczenia treści na inne języki, używając głosów osób prowadzących dany podcast, tyle, że przekonwertowanych. W taki właśnie sposób angielskie wersje niektórych odcinków serii Fotel Expert oraz The Diary of a CEO są już dostępne w języku hiszpańskim, a w planach jest konwertowanie także na francuski i niemiecki.