DeepFloyd IF (źródło: Stability AI)
DeepFloyd IF (źródło: Stability AI)

AI nie radzi sobie z generowaniem tekstu na obrazach. DeepFloyd pomoże rozwiązać ten problem

Okazuje się, że generatory obrazów AI nie są wcale takie „inteligentne”, jak mogłoby się wydawać. Choć grafiki wytwarzają już prawie doskonale, automatyczne dodanie na nich tekstu jest praktycznie niewykonalne. Model autorstwa DeepFloyd powinien jednak pokonać ten problem.

Sztuczna inteligencja nie radzi sobie z tekstami na grafikach

Generatywna sztuczna inteligencja radzi sobie coraz lepiej, tworząc bogatsze i dokładniejsze grafiki, na co dowodem może być najnowsza wersja Midjourney. Choć AI opiera się o monity i zachwyca każdego dnia, jest rzecz, z którą nie może sobie poradzić i mam tutaj na myśli tekst.

Nawet najbardziej zaawansowane modele napotykają na trudność związaną z generowaniem obrazów, zwieńczonych dobrej jakości, a przede wszystkim logicznym tekstem z ładnym fontem, kaligrafią czy zwykłym logo. Dla przykładu lub też jako dowód nieradzenia sobie z wszelkimi napisami poniżej wstawiłam grafiki wygenerowane z Image Creatora, umieszczonego w Edge.

Chyba przyznacie, że litery w niektórych przypadkach są całkowicie przypadkowe, co może być naprawdę zaskakujące. Z pomocą przychodzą jednak naukowcy z grupy DeepFloyd, którzy mają pomysł jak rozwiązać ten problem.

Model DeepFloyd IF pozwoli umieszczać logiczny tekst na obrazach generowanych przez AI

Grupa badawcza opracowała model DeepFloyd IF, który pozwala na zamianę tekstu w obraz, a przy tym jest w stanie w sposób inteligentny dokonać integracji wygenerowanej grafiki z napisem. Model ten został opracowany w oparciu o bazę złożoną z miliarda obrazów i tekstów, a podstawowym wymogiem do działania systemu jest posiadanie procesora graficznego z pamięcią o pojemności minimum 16 GB.

DeepFloyd IF (źródło: Stability AI)
DeepFloyd IF (źródło: Stability AI)

Grafiki generowane przez DeepFloyd IF tworzone są w oparciu o kilkukrotną dyfuzję, co odróżnia ten algorytm od innych. Jest to konieczne, gdyż model ten został oparty o działanie na pikselach, dzięki czemu otrzymywane obrazy są dokładniejsze, a do tego okraszone logicznym i ładnym tekstem.

Póki co model grupy badawczej dostępny jest na zasadzie open source, jednak to w każdej chwili może się zmienić, mając na uwadze niepewne statusy prawne.