본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 15:46

가짜 공명: 음성 생성 평가를 위한 감정 임베딩 유사성에 대한 비판적 고찰

요약

음성 생성 및 변환 분야에서 감정 표현력을 측정하기 위해 흔히 사용되는 임베딩 기반의 코사인 유사도 접근 방식에 대해 비판적으로 고찰합니다. 이 방법은 참조 샘플과 생성된 샘플 간의 감정적 합성을 정량화하는 데 필수적이지만, 실제로는 언어적 및 화자 변이로 인해 감정 특징을 포착하는 데 한계가 있습니다. 연구는 통제된 적대적 작업과 인간 평가를 통해 이러한 잠재 공간 유사성 지표가 제로샷(zero-shot) 환경에서 신뢰할 수 없으며, 궁극적으로 인간의 실제 청각 지각과 정렬되지 않음을 주장합니다.

핵심 포인트

  • 음성 생성 분야는 감정 성조를 정량화하기 위해 임베딩 기반 코사인 유사도에 크게 의존하고 있다.
  • 이러한 임베딩은 언어적 및 화자 변이에도 불구하고 감정 단서를 포착한다고 가정하지만, 실제로는 분별력이 떨어진다.
  • 연구는 이 지표가 제로샷(zero-shot) 유사성 평가에 적합하지 않으며, 인간의 청각 지각과 정렬되지 않는다는 것을 보여준다.
  • 현재의 감정 합성 평가는 진정한 감정 표현보다는 음향적 모방을 보상하는 경향이 있다.

감정 표현력을 정량화하는 객관적 지표는 발성 생성, 특히 감정 성조 (prosody) 이 전이되는 감정적 합성과 음성 변환 (voice conversion) 에서 필수적입니다. 이를 정량화하기 위해 해당 분야는 참조 샘플과 생성된 샘플 간의 감정 유사성에 널리 의존합니다. 이 접근법은 emotion2vec 와 같은 인코더에서 추출한 임베딩의 코사인 유사도를 계산하며, 언어적 및 화자 변이에도 불구하고 이러한 임베딩들이 정서적 단서를 포착한다고 가정합니다. 우리는 통제된 적대적 작업과 인간 정렬 테스트를 통해 이 가정을 도전합니다. 높은 분류 정확도에도 불구하고 이러한 잠재 공간 (latent spaces) 은 제로샷 (zero-shot) 유사성 평가에 적합하지 않습니다. 표현적 한계는 언어적 및 화자 간섭이 감정 특징을 가려 분별력을 저하시킵니다. 따라서 해당 지표는 인간의 지각과 정렬되지 않습니다. 이 음향적 취약점은 진정한 감정 합성보다 음향 모방을 보상으로 한다는 것을 드러냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0