Marka Stability AI nieustannie rozwija swoje modele sztucznej inteligencji, aby generowane obrazy były jeszcze bardziej dokładne, szczegółowe i charakteryzowały się lepszą jakością. Jak twierdzą twórcy Stable Diffusion 3, najnowsza propozycja ma poradzić sobie także z tworzeniem tekstu na grafikach, co jest dość problematyczne dla wielu narzędzi AI.
Nowy model dla generatorów obrazów
Generowanie tekstu na obrazach od początku było dla sztucznej inteligencji problematyczne. Często zdarzało się, że na opracowanych zdjęciach cyfry i litery wstawionego tekstu były zupełnie przypadkowe lub zniekształcone, co zupełnie nie spełniało oczekiwań użytkowników. Choć pojawiały się już pomysły na rozwiązanie tego kłopotliwego zjawiska, nadal daleko było do doskonałości. Teraz Stability AI pochwaliło się nowym sposobem i ma zamiar zwalczyć to nurtujące zagadnienie modelem Stable Diffusion w wersji 3.
Jak twierdzi Stability AI, najnowszy model jest tworzony i ulepszany w sposób, który uniemożliwi użycie narzędzia w sposób niewłaściwy, niebezpieczny czy wprowadzający w błąd. Technologia jest szkolona od samego początku jego testowania i kontynuowana na każdym etapie wprowadzania usprawnień.
Zaawansowane technologie dla ulepszenia modelu AI
Tekstowe podpowiedzi skierowane do sztucznej inteligencji przez użytkownika, są pobierane i zamieniane w dopasowane obrazy. Aby było to możliwe model korzysta z „transformatora dyfuzyjnego”, który powstał już w 2022 roku i jest intensywnie rozwijany. Technologia działa na ogromnej liczie parametrów: od 800 milionów aż do 8 miliardów, przebijając w ten sposób możliwości wersji Stable Diffusion XL. Jej zadaniem jest utworzenie obrazów o niewielkich elementach, które są w stanie reprezentować każdy rodzaj sekwencji, zapewniając przy tym wysoką jakość skalowania.
Poza transformatorem dyfuzyjnym wykorzystano także technikę „dopasowania przepływu”. Dzięki niej modele generatorów obrazów intensywnie uczą się przejścia z losowego szumu do idealnego obrazu w sposób płynny. Metoda ta nie wymaga więc wprowadzania symulacji na każdym etapie tworzenia pożądanej grafiki.
Technologię można już wypróbować po zgłoszeniu się na listę oczekujących.