arXiv논문2026. 05. 26. 11:35

다중 뷰 생성 없이 구현하는 다중 뷰 일관성을 갖춘 3D Gaussian 헤드 아바타

요약

다중 뷰 데이터나 중간 뷰 생성 없이 단일 2D 이미지로부터 일관된 3D Gaussian 헤드 아바타를 생성하는 MVCHead를 제안합니다. 계층적 상태 공간 모델(HiSS)과 SE(3) 다중 뷰 크리틱을 통해 높은 지각 품질과 기하학적 일관성을 달성했습니다.

핵심 포인트

다중 뷰 데이터 없이 무작위 2D 이미지로 3D 헤드 모델 학습 가능
HiSS 및 HiBiSS 블록을 통한 정밀한 3D Gaussian 회귀 및 일관성 확보
SE(3) 다중 뷰 크리틱을 통한 교차 뷰 픽셀 정렬 보상 설계
대규모 3D Gaussian 헤드 에셋 데이터셋 FaceGS-10K 공개

고충실도(High-fidelity) 3D Gaussian 헤드 아바타 생성은 AR/VR, 텔레프레즌스(telepresence), 디지털 휴먼과 같은 응용 분야에서 매우 중요합니다. 기존 방법들은 다중 뷰 데이터셋(multi-view datasets), 3D 캡처, 또는 중간 단계의 2D 뷰 합성(2D view synthesis)에 의존합니다. 이와 대조적으로, 우리는 다중 뷰 데이터, 3D 감독(3D supervision), 또는 중간 뷰 생성(intermediate view generation)을 사용하지 않고, 오직 무작위로 샘플링된 2D 이미지로부터 조건부(conditional) 및 비조건부(unconditional) 3D 헤드 모델을 모두 학습합니다. 우리는 이러한 제약 조건 하에서 3D Gaussians을 회귀(regressing)하는 동시에 3D 표현(3D representation) 내에서 직접 다중 뷰 일관성(Multi-view Consistency, MVC)을 강제하는 싱글샷 상태 공간 모델(single-shot state space model)인 MVCHead를 소개합니다. 핵심적으로, 우리는 장거리 의존성(long-range dependencies)을 포착하면서 Gaussians을 거친 단계에서 정밀한 단계로 점진적으로 정제하는 계층적 상태 공간(Hierarchical State Space, HiSS) 블록을 제안합니다. 각 HiSS 블록 내에서, 우리는 Mamba의 표준 단방향 스캔(unidirectional scan)을 다중 뷰 불일치(multi-view inconsistencies)가 가장 강하게 나타나는 축을 따라 재귀(recurrence)를 정렬하는 제안된 계층적 양방향 상태 스캔(Hierarchical Bi-directional State Scan, HiBiSS)으로 수정합니다. 마지막으로, 우리는 실제 다중 뷰 쌍을 관찰하지 않고도 교차 뷰 픽셀 정렬(cross-view pixel alignment)에 보상을 주는, 일련의 셀프 렌더링(self-renders)이 단일한 기저 3D 구성(single underlying 3D configuration)에서 발생했는지 여부를 판단하는 SE(3) 다중 뷰 크리틱(SE(3) Multi-view Critic)을 설계합니다. MVCHead는 최첨단(state-of-the-art) 지각 품질(perceptual quality)을 달성하며, 질감(texture)과 기하학적 일관성(geometric consistency) 모두에서 이전 방법들을 능가하고, 형태 일관성(shape consistency)은 대등한 수준을 유지합니다. 확장성을 입증하기 위해, 우리는 3D 헤드 모델의 학습 및 평가를 위해 즉시 사용 가능한 대규모 3D Gaussian 헤드 에셋 데이터셋인 FaceGS-10K를 최초로 공개합니다. 프로젝트 페이지 및 코드: https://humansensinglab.github.io/MVCHead/

AI 자동 생성 콘텐츠

원문 바로가기

다중 뷰 생성 없이 구현하는 다중 뷰 일관성을 갖춘 3D Gaussian 헤드 아바타

요약

핵심 포인트

댓글