All That Glitters Is Not Audio: Text Priors and Audio Reliance 재고찰을 위한 오디오-언어 평가
요약
대형 오디오-언어 모델(LALM)의 성능 향상에도 불구하고, 높은 점수가 반드시 진정한 청각적 이해도를 의미하지는 않습니다. 본 논문은 '텍스트 사전'과 '오디오 의존성'이라는 두 가지 축을 사용한 진단 프레임워크를 제시하여 벤치마크 평가의 신뢰성을 재고합니다. 연구 결과, 모델들이 오디오 입력 없이도 전체 점수의 상당 부분을 유지하며, 완전한 오디오 클립이 필요한 항목은 매우 적다는 사실을 밝혀내어, 기존 벤치마크 설계에 대한 근본적인 의문을 제기하고 개선 방향을 제시합니다.
핵심 포인트
- LALM의 높은 점수가 실제 청각적 이해도를 반영하지 않을 수 있으므로 평가 신뢰성 재고가 필요하다.
- 진단 프레임워크는 '텍스트 사전(text prior)'과 '오디오 의존성(audio reliance)' 두 축을 사용하여 모델 성능을 분석한다.
- 모델들은 오디오 입력이 없어도 전체 점수의 60-72%를 유지하는 경향을 보여, 오디오 이해도의 과대평가 가능성을 시사한다.
- 실제 음향 신호가 필요한 항목은 매우 적으며, 대부분의 경우 국소화된(localized) 단편만으로도 충분히 해결 가능하다.
대형 오디오-언어 모델 (Large Audio-Language Models) 은 음성 및 오디오 벤치마크 전반에 걸쳐 일관된 성능 향상을 보이지만, 높은 점수가 반드시 진정한 청각적 인식을 반영하지는 않을 수 있습니다. 만약 모델이 음향 신호를 처리하지 않고도 질문에 답할 수 있다면, 해당 벤치마크는 청각적 이해도를 측정하는 지표로서 실패하게 됩니다. 우리는 텍스트 사전 (text prior) 과 오디오 의존성 (audio reliance) 이라는 두 가지 축을 사용하여 진단 프레임워크를 제시합니다. 여기서 텍스트 사전은 텍스트와 일반 지식만으로 답변 가능한 정도를 측정하고, 오디오 의존성은 실제 음향 신호에 대한 의존성을 평가합니다. 세 개의 벤치마크에서 여덟 개의 LALM 을 평가한 결과, 오디오 입력이 전혀 없는 상황에서도 모델들은 전체 오디오 점수의 60-72% 를 유지한다는 것을 발견했습니다. 또한 오디오가 필요한 항목들 중에서도 완전한 오디오 클립이 필요한 것은 오직 3.0-4.2% 에 불과하며, 대부분은 로컬라이즈드 (localized) 단편만으로도 해결될 수 있습니다. 이러한 결과는 벤치마크 성능이 견고한 오디오 이해도와 동일하다는 전제를 도전하며, 평가 신뢰성과 벤치마크 설계를 개선하기 위한 실용적인 지침으로 결론을 맺습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기