arXiv논문2026. 06. 10. 10:39

프로덕션 수준의 디지털 휴먼을 위한 Unreal Engine 기반 음성 주도 3D 얼굴 애니메이션 배포

요약

Unreal Engine 환경에서 프로덕션 파이프라인과 호환되는 음성 주도 3D 얼굴 애니메이션 시스템을 제안합니다. ARKit 호환 블렌드쉐이프를 사용하여 MediaPipe와 FaceDiffuser 등을 활용한 모듈형 UE 플러그인을 개발했습니다.

핵심 포인트

ARKit 호환 표현 방식을 통한 Unreal Engine 직접 연동
3DMEAD-ARKit 데이터셋 구축 및 모델 재학습
Python 백엔드를 지원하는 모듈형 UE 플러그인 개발
MetaHuman 및 Audio2Face와의 비교 연구 수행

음성 주도 (Speech-driven) 3D 얼굴 애니메이션 연구는 유망한 결과를 보여주었으나, 대부분의 방법론은 프로덕션 파이프라인 (production pipelines)과 호환되지 않는 표현 방식 (representations)에 의존하고 있습니다. 본 연구에서는 ARKit 호환 표현 방식을 사용하여 Unreal Engine (UE)에서 직접 음성 주도 3D 얼굴 애니메이션을 가능하게 함으로써 이러한 격차를 해소하는 배포 가능한 시스템을 제시합니다. 우리는 MediaPipe를 사용하여 MEAD 코퍼스 (MEAD corpus)를 블렌드쉐이프 (blendshape) 시퀀스로 변환함으로써 3DMEAD-ARKit 데이터셋을 구축하였으며, 확률적 (stochastic)이고 감정 제어가 가능한 애니메이션을 생성하기 위해 FaceDiffuser 및 ProbTalk3D-X를 재학습시켰습니다. 나아가 모델 선택 및 파라미터 제어를 지원하는 Python 백엔드를 갖춘 모듈형 UE 플러그인을 개발하였습니다. 우리는 지각 사용자 연구 (perceptual user study)를 통해 결과를 두 가지 기존 상용 도구인 Epic Games의 MetaHuman speech-driven animator 및 Nvidia의 Audio2Face와 비교하였습니다. 연구 결과는 학술적 파이프라인과 상용 파이프라인 간 비교의 중요성을 강조합니다. 보충 영상을 시청하실 것을 권장합니다. 또한 우리는 Siggraph 2026 컨퍼런스에서 본 연구의 라이브 데모를 진행할 계획입니다.

AI 자동 생성 콘텐츠

원문 바로가기

프로덕션 수준의 디지털 휴먼을 위한 Unreal Engine 기반 음성 주도 3D 얼굴 애니메이션 배포

요약

핵심 포인트

댓글