arXiv논문2026. 06. 19. 11:50

음향 및 운율 섭동을 통한 음성 품질 평가에서의 인간-모델 불일치 조사

요약

TTS 품질 평가 모델인 MOS 예측 모델이 인간의 지각과 어떻게 다른지 조사한 연구입니다. 모델은 음향적 저하는 잘 포착하지만, 운율적 오류와 화자 특성 변화에는 인간보다 둔감한 한계를 보입니다.

핵심 포인트

MOS 예측 모델은 음향적 저하 추적에는 능숙함
운율적 오류에 대해 모델의 지각 능력이 인간보다 낮음
모델은 인간과 달리 F0(기본 주파수)에 강한 편향을 보임
발화 속도 및 F0 변동성에 대한 모델의 민감도 부족 확인

평균 의견 점수 (Mean Opinion Score, MOS) 예측 모델은 텍스트 음성 변환 (Text-to-Speech, TTS) 연구에서 대리 지표 (proxy metrics)로 널리 사용되지만, 음향적 충실도 (acoustic fidelity)를 넘어 품질 차이를 포착하는 능력은 여전히 불분명합니다. 본 연구에서는 음성에 대한 통제된 섭동 (perturbations), 즉 음향적 저하 (acoustic degradation), 운율적 오류 (prosodic errors), 그리고 피치 (pitch) 및 발화 속도 (speaking rate)와 같은 화자 특유의 특성 조작을 통해 이를 조사합니다. 우리는 이러한 음성 샘플에 대해 인간 청취자와 모델 모두로부터 MOS 예측값을 얻었으며, 그들의 지각적 특성 차이를 분석했습니다. 결과에 따르면 대부분의 모델은 음향적 저하를 잘 추적하는 반면, 모든 모델은 주관적 점수가 크게 하락함에도 불구하고 운율적 오류에는 둔감한 것으로 나타났습니다. 화자 특성의 경우, 모델은 이중 해리 (double dissociation) 현상을 보입니다. 즉, 인간의 평가에는 없는 강한 평균 기본 주파수 (Fundamental Frequency, F0) 편향을 보이는 반면, 인간이 인지하는 발화 속도 및 F0 변동성에는 둔감합니다. 이러한 발견은 음향적 충실도를 넘어선 스칼라 (scalar) MOS 예측의 한계를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

음향 및 운율 섭동을 통한 음성 품질 평가에서의 인간-모델 불일치 조사

요약

핵심 포인트

댓글