LUNA: 스키닝(Skinning)을 넘어선 범용 3D 인간 애니메이션 학습
요약
LUNA는 기존의 선형 블렌드 스키닝(LBS) 방식의 한계를 극복하기 위해 제안된 LBS-free 범용 3D 인간 애니메이션 모델입니다. 3D 가우시안 변형을 활용하여 이미지, 키포인트, 스케치 등 다양한 2D 신호로부터 실사 같은 3D 아바타를 생성합니다.
핵심 포인트
- LBS를 사용하지 않고 3D 가우시안 변형으로 직접 매핑하는 방식 제안
- 트랜스포머 기반 모션 회귀기를 통해 전역 운동과 국소 역학 분리
- 하이브리드 감독 방식을 통해 2D-to-3D 리프팅의 모호성 해결
- 다양한 구동 모달리티 및 제로샷 교차 정체성 일반화 성능 입증
단안 이미지(monocular images)로부터 실사 같은 애니메이션 가능한 3D 인간 아바타를 생성하는 것은 여전히 선형 블렌드 스키닝 (Linear Blend Skinning, LBS) 및 파라메트릭 신체 모델 (parametric body models)에 크게 의존하고 있으며, 이는 표현력을 제한하고 불완전한 피팅으로 인해 아티팩트(artifacts)를 유발하는 경우가 많습니다. 우리는 명시적인 신체 피팅을 우회하여 이미지, 키포인트 (keypoints), 스케치 (sketches) 및 학습되지 않은 캐릭터와 같은 다양한 2D 제어 신호를 3D 가우시안 변형 (3D Gaussian deformations)으로 직접 매핑하는 LBS-free 범용 신경망 애니메이션 모델인 LUNA를 제안합니다. 핵심 기술로서, 트랜스포머 (transformer) 기반의 모션 회귀기 (motion regressor)는 전역적 강체 운동 (global rigid motion)을 미세한 국소 역학 (fine-grained local dynamics)으로부터 분리하여, 일관된 움직임과 미묘한 비강체 효과 (non-rigid effects)를 모두 포착합니다. 피팅된 데이터셋을 넘어 확장하는 과정에서 발생하는 2D-to-3D 리프팅 (lifting)의 내재적 모호성을 해결하기 위해, 우리는 LBS 교사 모델 (LBS teacher)로부터 소프트 구조적 사전 정보 (soft structural priors)를 증류(distill)하는 하이브리드 감독 (hybrid supervision)과, 제한된 피팅 데이터 및 대규모의 야생 미라벨링 비디오 (in-the-wild unlabeled videos) 모두에서 학습을 지원하는 손실 함수 (loss)를 도입합니다. 광범위한 실험을 통해 LUNA는 LBS 기반 방식과 비교하여 경쟁력 있는 시각적 충실도 (visual fidelity)를 달성하는 동시에, 다양한 구동 모달리티 (driving modalities)에 걸쳐 현실적인 인간의 움직임과 제로샷 교차 정체성 일반화 (zero-shot cross-identity generalization)를 제공함을 보여줍니다. 우리가 알고 있는 바로는, LUNA는 암시적 2D 구동 (implicit 2D driving)을 지원하는 최초의 엔드투엔드 (end-to-end) 3D 애니메이션 가능 모델입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기