arXiv논문2026. 06. 15. 03:49

토큰에서 얼굴로: 3D 얼굴 애니메이션을 위한 이산 음성 표현 연구

요약

본 연구는 음성 기반 3D 얼굴 애니메이션의 품질 향상을 위해 다양한 음성 표현(SSL 특징, 신경 코덱 라텐트 등)을 비교 평가했습니다. 네 가지 표현 계열을 객관적 지표와 지각적 평가로 분석하고, 특히 음성학적 클래스를 인코딩하는 것이 정확한 얼굴 애니메이션 예측에 유용함을 입증했습니다.

핵심 포인트

음성 기반 3D 얼굴 애니메이션에서 표현 선택이 중요함.
SSL 특징, 신경 코덱 라텐트 등 다양한 음성 표현을 비교 분석함.
음성학적 클래스 인코딩이 정확한 얼굴 애니메이션 예측에 유용함을 발견함.
Audio Visual Text-to-Speech (AVTTS) 파이프라인을 제안하여 음성과 3D 얼굴 움직임을 디코드함.

음성 기반 3D 얼굴 애니메이션에서 음성 표현의 선택은 매우 중요합니다. 이러한 표현들은 인코딩하는 내용이 다릅니다. SSL(Self-Supervised Learning) 특징은 분절적 및 의미적 단서를 강조하며, 신경 코덱(neural codecs)은 음향 재구성에 최적화된 라텐트(latents)를 산출하고, ASR 스타일의 목적 함수는 레이블 기반 공간을 생성합니다. 우리는 3D 얼굴 합성을 위해 네 가지 음성 표현 계열을 평가하고, 객관적 지표와 지각적 평가를 사용하여 두 개의 얼굴 디코더를 통해 그들의 얼굴 재구성 품질을 비교했습니다. 또한, 토큰화된 표현이 음성학적 단위 및 조음 변형과 어떻게 관련되는지 조사하는 프로빙 분석(probing analyses)도 수행했습니다. 우리는 음성학적 클래스를 인코딩하는 것이 의미 기반 및 레이블 기반 표현 모두에서 정확한 얼굴 애니메이션 예측에 유익하며, 이 경우 얼굴 애니메이션 품질은 비교 가능함을 발견했습니다. 이를 바탕으로, 우리는 음성과 3D 얼굴 움직임을 디코드하기 위해 공유 공간으로 이산 표현을 활용하는 Audio Visual Text-to-Speech (AVTTS) 파이프라인을 소개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

토큰에서 얼굴로: 3D 얼굴 애니메이션을 위한 이산 음성 표현 연구

요약

핵심 포인트

댓글