FFAvatar: 소량의 이미지로 가능한 피드포워드 방식의 일반화된 아바타 재구성

아바타 재구성 (Avatar reconstruction)은 전통적으로 수 시간의 계산이 필요한 피실험자별 최적화 (per-subject optimization) 방식이나, 확장성을 제한하는 비용이 많이 드는 전처리 과정에 의존해 왔습니다. 우리는 소량의 포즈가 지정되지 않은 초상화 이미지 (unposed portrait images)로부터 고품질의 애니메이션 가능한 3D 가우시안 (3D Gaussian) 머리 아바타를 몇 초 만에 재구성하는 일반화 가능한 피드포워드 (feed-forward) 프레임워크인 FFAvatar를 소개합니다. FFAvatar는 Multi-View Query-Former를 통해 여러 소스 이미지의 정보를 통합된 정준 가우시안 표현 (unified canonical Gaussian representation)으로 융합하며, 이는 픽셀로부터 직접 엔드투엔드 (end-to-end)로 예측된 FLAME 파라미터를 통해 애니메이션화됩니다. 이를 통해 오프라인 FLAME 추출의 오버헤드를 제거합니다. 우리는 광범위한 일반화와 고충실도 재구성을 모두 달성하는 3단계 학습 커리큘럼을 추가로 제안합니다: (i) 강력한 일반화 가능한 사전 지식 (priors)을 학습하기 위해 100만 개 이상의 신원을 포함하는 방대한 단안 비디오 (monocular video) 데이터에 대한 확장 가능한 사전 학습 (pretraining); (ii) 기하학적 충실도 (geometric fidelity)와 극한 시점 인식 (extreme-view awareness)을 향상시키기 위해 360도 캡처로 구성된 작지만 고품질인 데이터셋에 대한 다중 뷰 미세 조정 (multi-view fine-tuning); (iii) 최대 충실도를 위해 500회의 최적화 단계 내에서 특정 신원에 적응하는 선택적 개인화 (personalization). 광범위한 실험을 통해 FFAvatar가 신원 보존 (identity preservation), 기하학적 일관성 (geometric consistency), 그리고 애니메이션 충실도 (animation fidelity)의 새로운 표준을 세웠음을 입증했습니다. NeRSemble 벤치마크에서 FFAvatar는 최첨단 기술인 LAM을 5.5 PSNR 차이로 크게 앞질렀습니다. 또한, FFAvatar는 실시간 배포를 가능하게 하여, 개인화 없이 2초 만에, 개인화 시 10초 만에 아바타를 재구성하며, 단일 NVIDIA A100 GPU에서 49 FPS의 애니메이션을 지원합니다.

Insights

FFAvatar: 소량의 이미지로 가능한 피드포워드 방식의 일반화된 아바타 재구성

요약

핵심 포인트

댓글

LG에너지솔루션이 열 분기 만에 매출 7조를 넘기며 흑자로 돌아섰다. 근데 이 흑자, 배터리가 벌어준 게 아니다.

Micron, Samsung, SK Hynix가 메모리 주식을 약세장으로 끌어들였다

Google, 독일 핵융합 기업의 4억 6,800만 달러 규모 투자 라운드에 참여

1인 개발자로서 AI 회계 SaaS를 구축한 방법 (그리고 다르게 했을 점)

LG에너지솔루션이 열 분기 만에 매출 7조를 넘기며 흑자로 돌아섰다. 근데 이 흑자, 배터리가 벌어준 게 아니다.

Micron, Samsung, SK Hynix가 메모리 주식을 약세장으로 끌어들였다

Google, 독일 핵융합 기업의 4억 6,800만 달러 규모 투자 라운드에 참여

1인 개발자로서 AI 회계 SaaS를 구축한 방법 (그리고 다르게 했을 점)