ControlNet (źródło: Qualcomm)
ControlNet (źródło: Qualcomm)

ControlNet poprawi zdjęcia w oparciu o tekst. Zobaczcie ten ciekawy pomysł na wykorzystanie AI

Qualcomm, podczas tegorocznej konferencji IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), zaprezentował sporo nowości, w tym aplikację ControlNet do przerabiania zdjęć w oparciu o tekst, a także coaching fitness, opartą o duży model językowy (LLM) oraz rekonstrukcję 3D, dedykowaną dla rzeczywistości rozszerzonej (XR).

„Boom” na sztuczną inteligencję i kolejne ciekawostki ze świata technologii

Sztuczna inteligencja ewidentnie przeżywa swoją świetność. Za nami już połowa roku, a głosy o nowych narzędziach i systemach, wykorzystujących do swojego działania AI, zdają się nie milknąć. Mamy już generatory tekstów, mowy czy obrazów, tworzonych w oparciu o krótki monit, sztuczna inteligencja wkracza też do najczęściej używanych stron i wyszukiwarek. Również firma Qualcomm nie pozostaje w tyle i podczas rokrocznej konferencji CVPR pokazała możliwości autorskiego ControlNet.

ControlNet (źródło: Qualcomm)
ControlNet (źródło: Qualcomm)

Najnowsze narzędzie to mobilny model do tworzenia obrazów AI, jednak nie jest to kolejny, zwykły generator, z którymi mamy do czynienia od kilku miesięcy. Co więc go odróżnia? Algorym ten może działać bez dostępu do internetu i na każdej platformie, gdyż jest modelem typu lokalnego.

To jeszcze nie wszystko -narzędzie jest w stanie działać w oparciu o przesłany czy wybrany obraz i zmieniać go w oparciu o tekst, bez potrzeby generowania nowego zdjęcia od samego początku. Model ten może nieco przypominać program spod skrzydeł firmy Adobe, znany jako Firefly, który jednak potrzebuje do swojej pracy dostęp do internetu.

Szybki generator ControlNet, który przerobi zdjęcie na telefonie w kilkanaście sekund

ControlNet umożliwia precyzyjne i kontrolowane generowanie obrazów z wejściowego, poprzez tekst, w celu uzyskania oczekiwanego. Wersja demonstracyjna pozwala na przetworzenie danej grafiki bez konieczności dostępu do chmury i internetu w około 12 sekund. Co ciekawe model ten działa na urządzeniach mobilnych. Jak wynika z udzielonych przez twórców informacji, do uzyskania naprawdę dobrej jakości zdjęcia wystarczy prosty szkic wybranego obiektu.

Poza generatorem firma pokazała także możliwości płynące z treningu fitness, który wesprze cyfrowy trener LLM. Jego zadaniem ma być interakcja w czasie rzeczywistym, zachęcanie osoby ćwiczącej, poprawianie jej czy pomaganie w osiągnięciu narzuconych sobie celów.

Qualcomm pochwalił się także nowatorską architekturą neuronową, która pozwala na kodowanie wideo o jakości 1080p na smartfonach oraz systemem rekonstrukcji 3D w czasie rzeczywistym, przeznaczonym dla szeroko pojętego metaverse.