ParaPairAudioBench: LALM-as-a-Judge를 위한 준언어적 쌍체 오디오 벤치마크
요약
LALM의 음성 평가 능력을 세밀하게 측정하기 위한 준언어적 쌍체 오디오 벤치마크인 ParaPairAudioBench를 제안합니다. 스타일, 속도, 강조 등 5가지 차원을 통해 기존 모델들의 평가 신뢰성과 보정 실패 문제를 분석합니다.
핵심 포인트
- 5가지 준언어적 차원을 포함한 5,175개 오디오 쌍 벤치마크 구축
- 현재 LALM 판사 모델이 인간의 판단보다 평균 32%p 뒤처짐을 확인
- 무승부 사례에서의 심각한 보정 실패(calibration failures) 지적
- 어휘적 의존성과 음향적 의존성을 구분하기 위한 실험 설계
대규모 오디오-언어 모델 (Large Audio-Language Models, LALMs)은 생성된 음성을 자동 평가하기 위한 판사 모델 (judge models)로 널리 사용되어 왔습니다. 그러나 기존의 접근 방식은 주로 전체적인 자연스러움 (holistic naturalness)에 집중되어 있어, 세밀한 준언어적 (paralinguistic) 차이를 탐구하는 데에는 미흡했습니다. 우리는 스타일 (Style), 속도 (Rate), 강조 (Emphasis), 연령 (Age), 성별 (Gender)의 다섯 가지 준언어적 차원에 걸쳐 5,175개의 오디오 쌍으로 구성된 쌍체 벤치마크 (pairwise benchmark)인 ParaPairAudioBench를 소개합니다. 실험 결과, 현재의 LALM 판사들은 인간의 판단에 비해 평균 32%p 뒤처져 있으며, 특히 정답이 기권(abstain)이어야 하는 무승부 (Tie) 사례에서 심각한 보정 실패 (calibration failures)를 보임을 확인했습니다. 어휘적 의존성 (lexical reliance) 대 음향적 의존성 (acoustic reliance)을 심층 분석하기 위해, 본 벤치마크는 동일 대본 (same-transcript) 및 교차 대본 (cross-transcript) 조건을 모두 포함합니다. ParaPairAudioBench는 준언어적 음성 평가를 위한 LALM-as-a-Judge의 신뢰성에 대해 다차원적이고 보정 인지적인 (calibration-aware) 평가를 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기