본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:26

FFAvatar: 소량의 이미지로 가능한 피드포워드 방식의 일반화된 아바타 재구성

요약

FFAvatar는 소량의 포즈가 지정되지 않은 초상화 이미지로부터 고품질의 3D 가우시안 머리 아바타를 단 몇 초 만에 재구성하는 피드포워드 프레임워크입니다. Multi-View Query-Former를 통해 여러 이미지 정보를 통합하며, FLAME 파라미터를 직접 예측하여 애니메이션화 과정의 오버헤드를 제거했습니다. 3단계 학습 커리큘럼을 통해 높은 일반화 성능과 기하학적 충실도를 동시에 달성했습니다.

핵심 포인트

  • 소량의 이미지로 몇 초 내에 고품질 3D 가우시안 머리 아바타 재구성 가능
  • Multi-View Query-Former를 통한 통합된 정준 가우시안 표현 및 엔드투엔드 FLAME 파라미터 예측
  • 사전 학습, 다중 뷰 미세 조정, 선택적 개인화로 이어지는 3단계 학습 커리큘럼 제안
  • NeRSemble 벤치마크에서 기존 SOTA 모델인 LAM을 5.5 PSNR 차이로 압도
  • NVIDIA A100 GPU 기준 49 FPS의 실시간 애니메이션 지원

아바타 재구성 (Avatar reconstruction)은 전통적으로 수 시간의 계산이 필요한 피실험자별 최적화 (per-subject optimization) 방식이나, 확장성을 제한하는 비용이 많이 드는 전처리 과정에 의존해 왔습니다. 우리는 소량의 포즈가 지정되지 않은 초상화 이미지 (unposed portrait images)로부터 고품질의 애니메이션 가능한 3D 가우시안 (3D Gaussian) 머리 아바타를 몇 초 만에 재구성하는 일반화 가능한 피드포워드 (feed-forward) 프레임워크인 FFAvatar를 소개합니다. FFAvatar는 Multi-View Query-Former를 통해 여러 소스 이미지의 정보를 통합된 정준 가우시안 표현 (unified canonical Gaussian representation)으로 융합하며, 이는 픽셀로부터 직접 엔드투엔드 (end-to-end)로 예측된 FLAME 파라미터를 통해 애니메이션화됩니다. 이를 통해 오프라인 FLAME 추출의 오버헤드를 제거합니다. 우리는 광범위한 일반화와 고충실도 재구성을 모두 달성하는 3단계 학습 커리큘럼을 추가로 제안합니다: (i) 강력한 일반화 가능한 사전 지식 (priors)을 학습하기 위해 100만 개 이상의 신원을 포함하는 방대한 단안 비디오 (monocular video) 데이터에 대한 확장 가능한 사전 학습 (pretraining); (ii) 기하학적 충실도 (geometric fidelity)와 극한 시점 인식 (extreme-view awareness)을 향상시키기 위해 360도 캡처로 구성된 작지만 고품질인 데이터셋에 대한 다중 뷰 미세 조정 (multi-view fine-tuning); (iii) 최대 충실도를 위해 500회의 최적화 단계 내에서 특정 신원에 적응하는 선택적 개인화 (personalization). 광범위한 실험을 통해 FFAvatar가 신원 보존 (identity preservation), 기하학적 일관성 (geometric consistency), 그리고 애니메이션 충실도 (animation fidelity)의 새로운 표준을 세웠음을 입증했습니다. NeRSemble 벤치마크에서 FFAvatar는 최첨단 기술인 LAM을 5.5 PSNR 차이로 크게 앞질렀습니다. 또한, FFAvatar는 실시간 배포를 가능하게 하여, 개인화 없이 2초 만에, 개인화 시 10초 만에 아바타를 재구성하며, 단일 NVIDIA A100 GPU에서 49 FPS의 애니메이션을 지원합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0