AI nie radzi sobie z generowaniem tekstu na obrazach

Okazuje się, że generatory obrazów AI nie są wcale takie „inteligentne”, jak mogłoby się wydawać. Choć grafiki wytwarzają już prawie doskonale, automatyczne dodanie na nich tekstu jest praktycznie niewykonalne. Model autorstwa DeepFloyd powinien jednak pokonać ten problem.

Sztuczna inteligencja nie radzi sobie z tekstami na grafikach

Generatywna sztuczna inteligencja radzi sobie coraz lepiej, tworząc bogatsze i dokładniejsze grafiki, na co dowodem może być najnowsza wersja Midjourney. Choć AI opiera się o monity i zachwyca każdego dnia, jest rzecz, z którą nie może sobie poradzić i mam tutaj na myśli tekst.

Nawet najbardziej zaawansowane modele napotykają na trudność związaną z generowaniem obrazów, zwieńczonych dobrej jakości, a przede wszystkim logicznym tekstem z ładnym fontem, kaligrafią czy zwykłym logo. Dla przykładu lub też jako dowód nieradzenia sobie z wszelkimi napisami poniżej wstawiłam grafiki wygenerowane z Image Creatora, umieszczonego w Edge.

AI nie radzi sobie z generowaniem tekstu na obrazie (źródło: Image Creator/Edge)

Chyba przyznacie, że litery w niektórych przypadkach są całkowicie przypadkowe, co może być naprawdę zaskakujące. Z pomocą przychodzą jednak naukowcy z grupy DeepFloyd, którzy mają pomysł jak rozwiązać ten problem.

Model DeepFloyd IF pozwoli umieszczać logiczny tekst na obrazach generowanych przez AI

Grupa badawcza opracowała model DeepFloyd IF, który pozwala na zamianę tekstu w obraz, a przy tym jest w stanie w sposób inteligentny dokonać integracji wygenerowanej grafiki z napisem. Model ten został opracowany w oparciu o bazę złożoną z miliarda obrazów i tekstów, a podstawowym wymogiem do działania systemu jest posiadanie procesora graficznego z pamięcią o pojemności minimum 16 GB.

Grafiki generowane przez DeepFloyd IF tworzone są w oparciu o kilkukrotną dyfuzję, co odróżnia ten algorytm od innych. Jest to konieczne, gdyż model ten został oparty o działanie na pikselach, dzięki czemu otrzymywane obrazy są dokładniejsze, a do tego okraszone logicznym i ładnym tekstem.

Póki co model grupy badawczej dostępny jest na zasadzie open source, jednak to w każdej chwili może się zmienić, mając na uwadze niepewne statusy prawne.

Zobacz również

AI nie radzi sobie z generowaniem tekstu na obrazach. DeepFloyd pomoże rozwiązać ten problem

Sztuczna inteligencja nie radzi sobie z tekstami na grafikach

Model DeepFloyd IF pozwoli umieszczać logiczny tekst na obrazach generowanych przez AI

VOD.pl trafia na Smart TV i jest teraz darmową platformą

Ten robot zmieni zwykły parking w stację ładowania. To właściwie bateria na kółkach

Kerfuś nie zniknie ze sklepów Carrefour! Oferuje teraz inne produkty, ale wciąż można go spotkać

Już nie potrzebujesz hasła, by zalogować się do konta Google

AI nie radzi sobie z generowaniem tekstu na obrazach. DeepFloyd pomoże rozwiązać ten problem

Sztuczna inteligencja nie radzi sobie z tekstami na grafikach

Model DeepFloyd IF pozwoli umieszczać logiczny tekst na obrazach generowanych przez AI

VOD.pl trafia na Smart TV i jest teraz darmową platformą

Ten robot zmieni zwykły parking w stację ładowania. To właściwie bateria na kółkach

Kerfuś nie zniknie ze sklepów Carrefour! Oferuje teraz inne produkty, ale wciąż można go spotkać

Już nie potrzebujesz hasła, by zalogować się do konta Google

Subskrybuj