arXiv논문2026. 06. 30. 13:59

FFAvatar: 희소한 초상화 이미지로부터의 피드포워드 (Feed-Forward) 4D 헤드 아바타 재구성

요약

FFAvatar는 소수의 초상화 이미지를 활용해 고품질 4D 헤드 아바타를 생성하는 Transformer 기반 3D Gaussian 프레임워크입니다. 점진적 재구성과 교차 주의 집중 메커니즘을 통해 정체성을 유지하며 정교한 아바타를 구축합니다.

핵심 포인트

Transformer 기반 3D Gaussian 프레임워크 활용
추가 이미지에 따른 점진적 재구성 지원
교차 주의 집중 메커니즘으로 정체성과 표정 분리
희소-밀집 학습 패러다임을 통한 효율적 텍스처 구현
플러그 앤 플레이 방식의 모션 정교화 모듈 제공

우리는 하나 또는 그 이상의 참조 초상화 이미지로부터 고품질의 애니메이션 가능한 4D 헤드 아바타를 빠르게 구축하기 위한 Transformer 기반의 3D 가우시안 (3D Gaussian) 프레임워크인 FFAvatar를 선보입니다. 고정된 수의 입력 뷰 (input views)를 요구하는 기존의 피드포워드 (feed-forward) 방식과 달리, FFAvatar는 점진적 재구성 (incremental reconstruction)을 지원하여 추가적인 참조 이미지가 사용 가능해짐에 따라 아바타 표현을 점진적으로 정교화합니다. 우리 방법의 핵심은 정체성 외형 (identity appearance)을 표정 및 시점 변화로부터 분리하는 교차 주의 집중 메커니즘 (alternating attention mechanism)으로, 이를 통해 포즈와 얼굴 표정 전반에 걸쳐 일관되게 유지되는 정준 3D 외형 (canonical 3D appearance)의 재구성을 가능하게 합니다. 시각적 충실도 (visual fidelity)와 계산 효율성 사이의 균형을 맞추기 위해, 우리는 희소-밀집 (sparse-to-dense) 학습 패러다임을 도입합니다. 거친 외형 특징 (coarse appearance features)은 먼저 FLAME 정점 (vertex) 수준에 고정된 희소 프리미티브 (sparse primitives)를 사용하여 학습되며, 이후 미세한 기하학적 및 텍스처 세부 사항을 포착하기 위해 UV 도메인에서 밀집화 (densified)됩니다. 나아가 우리는 파라메트릭 변형 (parametric deformation) 이상의 잔차 운동 (residual motion)을 모델링함으로써 피험자 특유의 동적 개인화를 가능하게 하는 플러그 앤 플레이 (plug-and-play) 방식의 모션 정교화 모듈을 제안합니다. 광범위한 실험을 통해 FFAvatar가 고충실도의 제어 가능한 4D 헤드 아바타를 효율적으로 생성하며, 다양한 표정과 시점에 걸쳐 우수한 유연성, 구동 효율성 및 정체성 일관 렌더링 (identity-consistent rendering)을 달성함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FFAvatar: 희소한 초상화 이미지로부터의 피드포워드 (Feed-Forward) 4D 헤드 아바타 재구성

요약

핵심 포인트

댓글