본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:30

UMo: 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링 (Unified Sparse Motion Modeling)

요약

UMo는 실시간 Co-Speech 아바타 구현을 위해 텍스트, 오디오, 모션 토큰을 통합 처리하는 희소 모션 모델링 아키텍처입니다. 공간적 MoE(Mixture-of-Experts)와 시간적 키프레임 중심 설계를 통해 얼굴 표정과 제스처를 실시간으로 고품질 생성하며, 낮은 지연 시간 내에서도 정교한 음성-모션 정렬을 유지합니다.

핵심 포인트

  • 텍스트, 오디오, 모션 토큰을 하나의 통합된 공식으로 처리하는 아키텍처 제안
  • 공간적 MoE와 시간적 키프레임 중심 설계를 통한 실시간 밀집 재구성 효율화
  • 오디오 증강을 포함한 다단계 학습 전략으로 음향적 다양성 및 의미적 일관성 확보
  • 엄격한 지연 시간 제약 조건 하에서도 고충실도의 얼굴 및 제스처 애니메이션 생성 가능

음성 기반 제스처(Gestures)와 얼굴 애니메이션(Facial animations)은 게임, 버추얼 프로덕션(Virtual production), 인터랙티브 미디어(Interactive media)에서 표현력이 풍부한 디지털 아바타를 구현하는 데 필수적입니다. 그러나 기존 방식들은 오디오-모션 정렬(Audio motion alignment)을 위해 단일 모달리티(Single modality)에 국한되어 방대한 인간 모션 데이터의 잠재력을 충분히 활용하지 못하거나, 멀티모달 모델(Multimodal models)의 표현 능력 및 처리량(Throughput) 제약으로 인해 고품질 모션 생성이나 실시간 성능을 달성하는 데 어려움이 있습니다. 본 논문에서는 텍스트, 오디오, 모션 토큰(Motion tokens)을 통합된 공식 내에서 처리하는 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링(Unified sparse motion modeling) 아키텍처인 UMo를 제안합니다. 공간적으로 희소한 전문가 혼합(Mixture-of-Experts, MoE) 프레임워크와 시간적으로 희소한 키프레임 중심(Keyframe-centric) 설계를 활용하여, UMo는 실시간 밀집 재구성(Dense reconstruction)을 효율적으로 수행하며 얼굴 표정과 제스처 모두에 대해 시간적으로 일관되고 고충실도(High-fidelity)인 애니메이션 생성을 가능하게 합니다. 또한, 음향적 다양성(Acoustic diversity)과 의미적 일관성(Semantic consistency)을 향상시키기 위해 타겟팅된 오디오 증강(Audio augmentation)을 포함한 다단계 학습 전략을 구현합니다. 결과적으로 UMo는 엄격한 지연 시간(Latency) 제약 하에서도 미세한 음성-모션 정렬(Speech-motion alignment)을 유지합니다. 광범위한 정량적 및 정성적 평가를 통해 UMo가 낮은 지연 시간과 실시간 성능 제약 조건 하에서 더 나은 출력 품질을 달성함을 보여주며, 고충실도 실시간 Co-Speech 아바타를 위한 실용적인 솔루션을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0