Firma Meta (właściciel Facebooka) zaprezentowała możliwości nowego modelu językowego AI. SAM, bo o nim mowa, potrafi przeprowadzić segmentację obiektów na obrazach.
Co potrafi nowy model językowy AI?
Nowy model językowy sztucznej inteligencji zyskał nazwę Segment Anything Model, w skrócie SAM. Narzędzie pozwala na dokładne przeprowadzanie analizy zdjęć i materiałów wideo, a także wyizolowanie poszczególnych obiektów.
Taki proces, który opiera się o określanie pikseli obrazu należących do obiektu, nazywany jest segmentacją. Do utworzenia tego typu modelu konieczny był dostęp do wysokiej jakości infrastruktury oraz szeregu wykwalifikowanych ekspertów.
Poza udostępnieniem SAM na otwartej licencji permisywnej (Apache 2.0), Meta zdecydowała się także udzielić dostęp do zbioru danych SA-1B (Segment Anything 1-Billion mask (SA-1B). Jak twierdzi firma jest to największy w historii zbiór danych segmentacyjnych.
Jakie korzyści płyną z utworzenia modelu SAM?
Jednym z zamysłów projektu jest wprowadzenie możliwości modelowania, obliczeń i realizacji innych procesów na potrzeby segmentacji obrazu. Dlatego też Meta zdecydowała się opracować model monitujący, który został przeszkolony na różnego rodzaju danych, które nie są łatwo dostępne tak, jak np. zdjęcia i filmy. Model SAM został przeszkolony w taki sposób, aby móc generować tzw. maski dla każdego obiektu na wyświetlanym, dowolnym obrazie.
Model ten łączy w sobie dwa rodzaje procesu segmentacji – od interaktywnej do automatycznej. W pierwszej to użytkownik musi iteracyjnie wprowadzać zmiany, które mogłyby udoskonalić maskę, natomiast druga pozwala na automatyczne segmentowanie określonych kategorii obiektów.
Jak twierdzi Meta, nowy model może znaleźć szerokie zastosowanie w obrębie tworzonych aplikacji, ale również w systemach wykorzystujących sztuczną inteligencję, a także wirtualnej czy rozszerzonej rzeczywistości. SAM mógłby jeszcze bardziej udoskonalić technologię AR i VR, wspomagając oddzielanie przedmiotów w 3D.