본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 03:49

토큰에서 얼굴로: 3D 얼굴 애니메이션을 위한 이산 음성 표현 연구

요약

본 연구는 음성 기반 3D 얼굴 애니메이션의 품질 향상을 위해 다양한 음성 표현(SSL 특징, 신경 코덱 라텐트 등)을 비교 평가했습니다. 네 가지 표현 계열을 객관적 지표와 지각적 평가로 분석하고, 특히 음성학적 클래스를 인코딩하는 것이 정확한 얼굴 애니메이션 예측에 유용함을 입증했습니다.

핵심 포인트

  • 음성 기반 3D 얼굴 애니메이션에서 표현 선택이 중요함.
  • SSL 특징, 신경 코덱 라텐트 등 다양한 음성 표현을 비교 분석함.
  • 음성학적 클래스 인코딩이 정확한 얼굴 애니메이션 예측에 유용함을 발견함.
  • Audio Visual Text-to-Speech (AVTTS) 파이프라인을 제안하여 음성과 3D 얼굴 움직임을 디코드함.

음성 기반 3D 얼굴 애니메이션에서 음성 표현의 선택은 매우 중요합니다. 이러한 표현들은 인코딩하는 내용이 다릅니다. SSL(Self-Supervised Learning) 특징은 분절적 및 의미적 단서를 강조하며, 신경 코덱(neural codecs)은 음향 재구성에 최적화된 라텐트(latents)를 산출하고, ASR 스타일의 목적 함수는 레이블 기반 공간을 생성합니다. 우리는 3D 얼굴 합성을 위해 네 가지 음성 표현 계열을 평가하고, 객관적 지표와 지각적 평가를 사용하여 두 개의 얼굴 디코더를 통해 그들의 얼굴 재구성 품질을 비교했습니다. 또한, 토큰화된 표현이 음성학적 단위 및 조음 변형과 어떻게 관련되는지 조사하는 프로빙 분석(probing analyses)도 수행했습니다. 우리는 음성학적 클래스를 인코딩하는 것이 의미 기반 및 레이블 기반 표현 모두에서 정확한 얼굴 애니메이션 예측에 유익하며, 이 경우 얼굴 애니메이션 품질은 비교 가능함을 발견했습니다. 이를 바탕으로, 우리는 음성과 3D 얼굴 움직임을 디코드하기 위해 공유 공간으로 이산 표현을 활용하는 Audio Visual Text-to-Speech (AVTTS) 파이프라인을 소개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0