arXiv논문2026. 06. 30. 10:57

KM-Speaker: 고품질 음성 기반 3D 얼굴 애니메이션 및 대화 로컬라이제이션을 위한 키포인트 기반 스타일 제어

요약

KM-Speaker는 음성 기반 3D 얼굴 애니메이션의 품질과 제어력을 높이기 위한 새로운 키포인트 조건부 플로우 기반 생성 프레임워크를 제안합니다. 오디오 기반 입술 모션과 상안면 역학을 분리하여 정밀한 스타일 제어와 높은 입술 동기화 정확도를 달성합니다.

핵심 포인트

키포인트 기반의 플로우 생성 프레임워크 제안
오디오 기반 입술 모션과 상안면 역학의 분리 전략 적용
전역 스타일 컨텍스트 보존을 통한 일관된 얼굴 표현력 확보
기존 SOTA 모델 대비 높은 입술 동기화 및 스타일 준수 성능

음성 기반 3D 얼굴 애니메이션 (Speech-driven 3D facial animation) 방법론은 제작 품질 수준의 고충실도 모션 (high-fidelity motion)과 정밀한 예술적 제어를 동시에 달성하는 데 있어 상당한 어려움에 직면해 있습니다. 기존의 제어 가능한 모델들은 일반적으로 전체 애니메이션의 사실성을 저해하는 대규모의 저품질 extit{in-the-wild} 데이터셋에 의존하여 전역 스타일 제어 (global style control)를 학습합니다. 또한, 이러한 프레임워크는 입술 동기화 (lip synchronization)만큼이나 특정 얼굴 표정을 맞추는 것이 중요한 대화 로컬라이제이션 (dialogue localization, 예: 더빙)과 같이 까다로운 작업에 요구되는 미세한 시간적 정밀도 (fine-grained temporal precision)가 부족한 경우가 많습니다. 본 논문에서는 참조 퍼포먼스 (reference performances)로부터 전역 스타일 가이드 (global style guidance)와 프레임 수준의 시간적 제어 (frame-level temporal control)를 모두 제공하는 새로운 키포인트 조건부 플로우 기반 생성 프레임워크 (keypoint-conditioned flow-based generative framework)인 KM-Speaker (Keypoint-Matching Speaker)를 제안합니다. 우리는 오디오 기반의 입술 모션 (audio-driven lip motion)을 키포인트 기반의 상안면 역학 (keypoint-driven upper-face dynamics)으로부터 분리하는 분리 전략 (disentanglement strategy)과, 일관된 전체 얼굴 표현력 (full-face expressiveness)을 보장하기 위한 전역 스타일 컨텍스트 보존 메커니즘 (global style context preservation mechanism)을 제안합니다. KM-Speaker는 데이터가 제한된 환경에서도 고충실도 모션과 유연한 제어 가능성을 달성함으로써 예시 기반 3D 얼굴 애니메이션 (example-based 3D facial animation)을 발전시키며, 입술 동기화 정확도, 스타일 준수 (style adherence), 그리고 표현력 있는 시간적 제어 측면에서 기존의 최첨단 (state-of-the-art) 방법들을 일관되게 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

KM-Speaker: 고품질 음성 기반 3D 얼굴 애니메이션 및 대화 로컬라이제이션을 위한 키포인트 기반 스타일 제어

요약

핵심 포인트

댓글