arXiv논문2026. 06. 25. 09:37

FiCA: 단일 인물 사진으로부터의 피드포워드(Feed-forward) 즉각적 가우시안 코덱 아바타 생성

요약

단 한 장의 인물 사진으로 실감 나는 3D 가우시안 아바타를 생성하는 FiCA 파이프라인을 소개합니다. 비전 파운데이션 모델과 확산 모델을 결합하여 별도의 최적화 과정 없이도 사실적인 아바타를 즉각적으로 생성합니다.

핵심 포인트

단일 이미지 기반의 피드포워드 방식 아바타 생성
비전 파운데이션 모델과 확산 모델의 결합을 통한 3D 재구성
테스트 단계 최적화 없이 정체성 보존 및 충실도 향상
3D 가우시안 디코딩을 통한 실시간 구동 가능한 아바타 구현

우리는 단일 인물 사진으로부터 실감 나는 아바타를 생성하는 피드포워드(Feed-forward) 방식의 즉각적인 가우시안 코덱 아바타(Gaussian Codec Avatar) 생성 파이프라인인 FiCA를 소개합니다. 단 한 장의 이미지로부터 사실적이고 구동 가능한(drivable) 아바타를 생성하는 것은 인간 머리의 3D 외형(appearance)과 기하학적 구조(geometry)를 정확하게 추론하는 데 필요한 시각적 정보가 제한적이기 때문에 매우 도전적인 과제입니다. 이를 해결하기 위해, 우리는 인간 중심의 비전 파운데이션 모델(vision foundation models)과 확산 모델(diffusion model)을 결합한 새로운 시스템을 개발했습니다. 이 시스템은 부분적인 시각적 관측값(visual observations)을 최대한 활용하여 실감 나는 인간 아바타를 생성하도록 설계되었습니다. 우리가 제안하는 확산 모델은 이러한 부분적 관측값으로부터 완전하고 실제적인 3D 메쉬 재구성(3D mesh reconstruction)으로 이어지는 생성적 매핑(generative mapping)을 학습합니다. 또한, 생성된 아바타의 충실도(fidelity)와 정체성 보존(identity preservation)을 향상시키는 피드포워드 메쉬 정밀화 네트워크(mesh refinement network)를 도입하여, 개인별 테스트 단계 최적화(test-time optimization)의 필요성을 제거했습니다. 생성된 메쉬를 일련의 3D 가우시안(3D Gaussians)으로 디코딩하는 범용 사전 모델(universal prior model)을 활용함으로써, 우리는 새로운 표정으로 실시간 구동이 가능한 사실적인 3D 가우시안 아바타를 생성합니다. 우리의 실험은 피드포워드 접근 방식에 의해 생성된 아바타가 다양한 정체성을 충실하게 표현하며, 최근의 경쟁 방법들로 생성된 아바타의 시각적 품질을 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FiCA: 단일 인물 사진으로부터의 피드포워드(Feed-forward) 즉각적 가우시안 코덱 아바타 생성

요약

핵심 포인트

댓글