arXiv논문2026. 04. 30. 15:46

가짜 공명: 음성 생성 평가를 위한 감정 임베딩 유사성에 대한 비판적 고찰

요약

음성 생성 및 변환 분야에서 감정 표현력을 측정하기 위해 흔히 사용되는 임베딩 기반의 코사인 유사도 접근 방식에 대해 비판적으로 고찰합니다. 이 방법은 참조 샘플과 생성된 샘플 간의 감정적 합성을 정량화하는 데 필수적이지만, 실제로는 언어적 및 화자 변이로 인해 감정 특징을 포착하는 데 한계가 있습니다. 연구는 통제된 적대적 작업과 인간 평가를 통해 이러한 잠재 공간 유사성 지표가 제로샷(zero-shot) 환경에서 신뢰할 수 없으며, 궁극적으로 인간의 실제 청각 지각과 정렬되지 않음을 주장합니다.

핵심 포인트

음성 생성 분야는 감정 성조를 정량화하기 위해 임베딩 기반 코사인 유사도에 크게 의존하고 있다.
이러한 임베딩은 언어적 및 화자 변이에도 불구하고 감정 단서를 포착한다고 가정하지만, 실제로는 분별력이 떨어진다.
연구는 이 지표가 제로샷(zero-shot) 유사성 평가에 적합하지 않으며, 인간의 청각 지각과 정렬되지 않는다는 것을 보여준다.
현재의 감정 합성 평가는 진정한 감정 표현보다는 음향적 모방을 보상하는 경향이 있다.

감정 표현력을 정량화하는 객관적 지표는 발성 생성, 특히 감정 성조 (prosody) 이 전이되는 감정적 합성과 음성 변환 (voice conversion) 에서 필수적입니다. 이를 정량화하기 위해 해당 분야는 참조 샘플과 생성된 샘플 간의 감정 유사성에 널리 의존합니다. 이 접근법은 emotion2vec 와 같은 인코더에서 추출한 임베딩의 코사인 유사도를 계산하며, 언어적 및 화자 변이에도 불구하고 이러한 임베딩들이 정서적 단서를 포착한다고 가정합니다. 우리는 통제된 적대적 작업과 인간 정렬 테스트를 통해 이 가정을 도전합니다. 높은 분류 정확도에도 불구하고 이러한 잠재 공간 (latent spaces) 은 제로샷 (zero-shot) 유사성 평가에 적합하지 않습니다. 표현적 한계는 언어적 및 화자 간섭이 감정 특징을 가려 분별력을 저하시킵니다. 따라서 해당 지표는 인간의 지각과 정렬되지 않습니다. 이 음향적 취약점은 진정한 감정 합성보다 음향 모방을 보상으로 한다는 것을 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

가짜 공명: 음성 생성 평가를 위한 감정 임베딩 유사성에 대한 비판적 고찰

요약

핵심 포인트

댓글