LUNA: 스키닝(Skinning)을 넘어선 범용 3D 인간 애니메이션 학습

단안 이미지(monocular images)로부터 실사 같은 애니메이션 가능한 3D 인간 아바타를 생성하는 것은 여전히 선형 블렌드 스키닝 (Linear Blend Skinning, LBS) 및 파라메트릭 신체 모델 (parametric body models)에 크게 의존하고 있으며, 이는 표현력을 제한하고 불완전한 피팅으로 인해 아티팩트(artifacts)를 유발하는 경우가 많습니다. 우리는 명시적인 신체 피팅을 우회하여 이미지, 키포인트 (keypoints), 스케치 (sketches) 및 학습되지 않은 캐릭터와 같은 다양한 2D 제어 신호를 3D 가우시안 변형 (3D Gaussian deformations)으로 직접 매핑하는 LBS-free 범용 신경망 애니메이션 모델인 LUNA를 제안합니다. 핵심 기술로서, 트랜스포머 (transformer) 기반의 모션 회귀기 (motion regressor)는 전역적 강체 운동 (global rigid motion)을 미세한 국소 역학 (fine-grained local dynamics)으로부터 분리하여, 일관된 움직임과 미묘한 비강체 효과 (non-rigid effects)를 모두 포착합니다. 피팅된 데이터셋을 넘어 확장하는 과정에서 발생하는 2D-to-3D 리프팅 (lifting)의 내재적 모호성을 해결하기 위해, 우리는 LBS 교사 모델 (LBS teacher)로부터 소프트 구조적 사전 정보 (soft structural priors)를 증류(distill)하는 하이브리드 감독 (hybrid supervision)과, 제한된 피팅 데이터 및 대규모의 야생 미라벨링 비디오 (in-the-wild unlabeled videos) 모두에서 학습을 지원하는 손실 함수 (loss)를 도입합니다. 광범위한 실험을 통해 LUNA는 LBS 기반 방식과 비교하여 경쟁력 있는 시각적 충실도 (visual fidelity)를 달성하는 동시에, 다양한 구동 모달리티 (driving modalities)에 걸쳐 현실적인 인간의 움직임과 제로샷 교차 정체성 일반화 (zero-shot cross-identity generalization)를 제공함을 보여줍니다. 우리가 알고 있는 바로는, LUNA는 암시적 2D 구동 (implicit 2D driving)을 지원하는 최초의 엔드투엔드 (end-to-end) 3D 애니메이션 가능 모델입니다.

Insights

LUNA: 스키닝(Skinning)을 넘어선 범용 3D 인간 애니메이션 학습

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들