PIFuHD

PIFuHD: sztuczna inteligencja tworzy ludzkie modele 3D ze zdjęć

Nowy model sztucznej inteligencji – PIFuHD – potrafi konwertować zdjęcia i nagrania wideo przedstawiające ludzi na trójwymiarowe modele, nie widząc nawet całej ich sylwetki. I chociaż nie jest on w 100% dokładny, to możliwości, które ze sobą niesie, są bardzo ekscytujące.

Morze możliwości

Przykładowe zastosowania tej technologii w przyszłości to np. tworzenie rzeczywistych postaci do gier VR (a nawet swoich avatarów!), ponowne oświetlanie kadrów filmowych w post-produkcji, czy wizualizacja ubrania na sobie przed jego zakupem. Ciekawe, nieprawdaż?

Przykład działania PIFuHD na klipach wideo (źródło: shunsukesaito / GitHub)

Program może jedynie oszacować kształt ludzkiej sylwetki. Z pomocą przychodzi jednak AI. Deweloperzy użyli głębokich sieci neuronowych, jednocześnie podchodząc do problemu z zupełnie innej strony. Jak piszą twórcy na GitHub:

Chociaż dotychczasowe podejścia miały potencjał do użytku w rzeczywistych warunkach, wciąż nie są w stanie rekonstruować ludzkich sylwetek z dokładnością, która jest na zdjęciu.

„Although current approaches have demonstrated the potential in real world settings, they still fail to produce reconstructions with the level of detail often present in the input images.”
Przykład działania PIFuHD na zdjęciach (źródło: shunsukesaito / GitHub)

PIFuHD łączy obie metody

Twórcy tego modelu AI wpadli na genialny pomysł. Dokładna rekonstrukcja kształtu wymaga kontekstu, a odtwarzanie detali wymaga wysokiej rozdzielczości (aby móc przetwarzać dowolny kawałek zdjęcia). Jednakże, dzięki niedawnym ulepszeniom kart graficznych i pamięci komputerowych, a także dzięki użyciu „wielo-poziomowej architektury”, programiści byli w stanie osiągnąć bardzo dokładny i szybki rezultat.

W skrócie, w pierwszym etapie AI obserwuje kontekst zdjęcia na niewielkich plikach, szacując miejsca, w których jest najwięcej detali, a następnie analizuje części zdjęć o wyższej rozdzielczości. Dzięki temu osiągamy najlepsze wyniki z możliwych.

Deweloperzy sądzą, że ich podejście jest przyszłością tego typu algorytmów. Jestem pewien, że, za już kilka lat, rozwiązania te zobaczymy w naszych smartfonach. Na razie jednak, kod źródłowy możemy znaleźć tutaj.

5-minutowa prezentacja PIFuHD (źródło: shunsukesaito / GitHub)