TopoCap: 단안 비디오-애니메이션 변환을 위한 위상 불가지론적(Topology-Agnostic) 모션 사전 학습
요약
TopoCap은 단안 비디오에서 추출한 모션을 임의의 골격 구조를 가진 캐릭터로 리타겟팅하는 통합 프레임워크입니다. 그래프 CVAE와 조건부 플로우 매칭을 통해 골격 위상에 구애받지 않는 범용 모션 매니폴드를 학습합니다.
핵심 포인트
- 테스트 시 최적화 없이 임의의 골격 위상으로 모션 리타겟팅 가능
- 그래프 CVAE를 사용하여 이질적인 운동학적 체인을 고정된 잠재 코드로 압축
- 5,000개 이상의 고유 골격 위상을 포함한 대규모 데이터셋 Mobjaverse 공개
- 인간 및 사족 보행 동물 벤치마크에서 기존 전문 모델 대비 우수한 성능 입증
생성형 3D 에셋의 폭발적인 증가는 애니메이션에 대한 막대한 수요를 창출했지만, 현재의 모션 캡처 (Motion Capture) 방식은 여전히 취약하며, 특정 종에 특화된 템플릿(예: SMPL)에 국한되거나 노동 집약적인 수동 리깅 (Manual Rigging)을 필요로 합니다. 우리는 테스트 시 최적화 (Test-time Optimization) 없이, 단안 비디오 (Monocular Video)에서 모션을 추출하여 이족 보행 동물에서 육각 보행 동물 및 무생물에 이르기까지, 본 적 없는 임의의 골격 위상 (Skeletal Topologies)을 가진 캐릭터로 리타겟팅 (Retargeting)할 수 있는 최초의 통합 프레임워크인 TopoCap을 소개합니다. 우리의 핵심 통찰은 골격 구조는 조합론적이고 이산적(Discrete)이지만, 그 기저에 깔린 운동의 물리 법칙은 연속적이고 저차원적인 매니폴드 (Manifold)를 점유한다는 것입니다. 우리는 2단계 생성 파이프라인을 통해 이 통찰을 구체화합니다. 첫째, 이질적인 운동학적 체인 (Kinematic Chains)을 공유된 고정 길이의 잠재 코드 (Latent Code)로 압축하는 그래프 CVAE (Graph CVAE)를 사용하여 범용 모션 매니폴드 (Universal Motion Manifold)를 학습합니다. 디코더 (Decoder)에 대상 리그 (Target Rig)의 구조적 임베딩 (Structural Embedding)을 명시적으로 조건화함으로써, 우리는 모션 역학 (Motion Dynamics)을 골격 위상 (Skeletal Topology)으로부터 분리합니다. 둘째, 우리는 비디오-애니메이션 변환을 조건부 플로우 매칭 (Conditional Flow Matching) 문제로 취급하여, 시각적 특징 (Visual Features)으로부터 이러한 위상 불가지론적 (Topology-agnostic) 코드들을 예측합니다. 이러한 일반화된 사전 학습 (Prior)을 학습하기 위해, 우리는 Objaverse-XL에서 큐레이션한 대규모 데이터셋인 Mobjaverse를 도입합니다. 5,000개 이상의 고유한 골격 위상과 200만 프레임으로 구성된 이 데이터셋은 기존 데이터셋의 구조적 다양성을 두 자릿수(100배) 이상 상회합니다. 광범위한 실험을 통해 TopoCap은 인간 및 사족 보행 동물 벤치마크에서 전문 모델보다 뛰어난 성능을 보였으며, 롱테일 (Long tail)에 속하는 다양한 3D 생명체들에 대한 제로샷 리타겟팅 (Zero-shot Retargeting)을 가능하게 함을 입증했습니다. 데이터셋은 https://huggingface.co/datasets/duckduckplz/Mobjaverse 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기