UMo: 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링 (Unified Sparse Motion Modeling)

음성 기반 제스처(Gestures)와 얼굴 애니메이션(Facial animations)은 게임, 버추얼 프로덕션(Virtual production), 인터랙티브 미디어(Interactive media)에서 표현력이 풍부한 디지털 아바타를 구현하는 데 필수적입니다. 그러나 기존 방식들은 오디오-모션 정렬(Audio motion alignment)을 위해 단일 모달리티(Single modality)에 국한되어 방대한 인간 모션 데이터의 잠재력을 충분히 활용하지 못하거나, 멀티모달 모델(Multimodal models)의 표현 능력 및 처리량(Throughput) 제약으로 인해 고품질 모션 생성이나 실시간 성능을 달성하는 데 어려움이 있습니다. 본 논문에서는 텍스트, 오디오, 모션 토큰(Motion tokens)을 통합된 공식 내에서 처리하는 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링(Unified sparse motion modeling) 아키텍처인 UMo를 제안합니다. 공간적으로 희소한 전문가 혼합(Mixture-of-Experts, MoE) 프레임워크와 시간적으로 희소한 키프레임 중심(Keyframe-centric) 설계를 활용하여, UMo는 실시간 밀집 재구성(Dense reconstruction)을 효율적으로 수행하며 얼굴 표정과 제스처 모두에 대해 시간적으로 일관되고 고충실도(High-fidelity)인 애니메이션 생성을 가능하게 합니다. 또한, 음향적 다양성(Acoustic diversity)과 의미적 일관성(Semantic consistency)을 향상시키기 위해 타겟팅된 오디오 증강(Audio augmentation)을 포함한 다단계 학습 전략을 구현합니다. 결과적으로 UMo는 엄격한 지연 시간(Latency) 제약 하에서도 미세한 음성-모션 정렬(Speech-motion alignment)을 유지합니다. 광범위한 정량적 및 정성적 평가를 통해 UMo가 낮은 지연 시간과 실시간 성능 제약 조건 하에서 더 나은 출력 품질을 달성함을 보여주며, 고충실도 실시간 Co-Speech 아바타를 위한 실용적인 솔루션을 제공합니다.

Insights

UMo: 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링 (Unified Sparse Motion Modeling)

요약

핵심 포인트

댓글

내가 AI 소프트웨어 팩토리를 운영하는 방법: 분산 에이전트, 경계 검사, 그리고 증거 추적

분석가를 위한 Claude.ai: 데이터, 조사 및 합성

마케터를 위한 Claude.ai: SEO 및 콘텐츠 전략

SkillCloak, AI 보안의 위험한 사각지대를 드러내다

분석가를 위한 Claude.ai: 데이터, 조사 및 합성

마케터를 위한 Claude.ai: SEO 및 콘텐츠 전략

SkillCloak, AI 보안의 위험한 사각지대를 드러내다