본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 12:53

불확실성을 걷다: 오디오 인식 대규모 언어 모델의 불확실성 추정에 대한 경험적 연구

요약

본 연구는 오디오 인식 대규모 언어 모델(ALLMs)의 불확실성 추정(uncertainty estimation)에 대한 체계적인 경험적 연구를 제시합니다. 기존 LLM에서 주로 다루어졌던 이 주제를 ALLM 환경, 특히 지각적 모호성과 교차 모드 정합이 필요한 오디오 조건부 생성에 적용하여 새로운 도전 과제를 탐구했습니다. 다양한 엔트로피 기반 방법론과 P(True) 등을 벤치마크하고, 의미 수준 및 검증 기반 방법이 토큰 수준보다 우수하며, 불확실성 추정의 효과성이 모델과 시나리오에 따라 달라진다는 주요 발견을 보고합니다.

핵심 포인트

  • ALLMs는 오디오 이해에서 강력하지만, 환각이나 과도한 자신감 문제를 해결하기 위한 체계적인 불확실성 추정 연구가 필요하다.
  • 본 연구에서는 예측 엔트로피, 의미 엔트로피 등 5가지 대표적 방법을 다양한 평가 설정(추론, 환각 감지, 답변 불가 질문)에서 비교 분석했다.
  • 일반 오디오 추론 시나리오에서는 토큰 수준보다 의미 수준 또는 검증 기반의 불확실성 방법이 더 일관되고 우수한 성능을 보였다.
  • 불확실성 추정 방법의 효과성은 모델과 평가 벤치마크에 크게 의존하므로, 일반적인 결론을 다른 시나리오로 무분별하게 적용해서는 안 된다.

최근 오디오 인식 대규모 언어 모델 (Audio-Aware Large Language Models, ALLMs) 은 다양한 오디오 이해 및 추론 작업에서 강력한 능력을 입증해 왔으나, 여전히 환각 (hallucination) 이나 지나치게 자신감 있는 출력을 자주 생성합니다. 불확실성 추정 (uncertainty estimation) 은 텍스트 전용 LLM 에서 광범위하게 연구되어 왔지만, 지각적 모호성 (perceptual ambiguity) 과 교차 모드 정합 (cross-modal grounding) 과 같은 추가적인 도전 과제가 발생하는 오디오 조건부 생성이 도입된 ALLM 에 대해서는 여전히 크게 탐구되지 않았습니다. 본 연구에서는 ALLM 의 불확실성 추정에 대한 첫 번째 체계적인 경험적 연구를 제시합니다. 우리는 일반 오디오 이해, 추론, 환각 감지, 그리고 답변 불가능한 질문 응답에 이르는 다양한 평가 설정을 아우르며 예측 엔트로피 (predictive entropy), 길이 정규화 엔트로피 (length-normalized entropy), 의미 엔트로피 (semantic entropy), 이산적 의미 엔트로피 (discrete semantic entropy), 그리고 P(True) 를 포함한 5 가지 대표적인 방법을 벤치마크로 삼았습니다. 우리의 결과는 두 가지 주요 발견을 보여줍니다. 첫째, 일반 오디오 추론 벤치마크에서 의미 수준 (semantic-level) 과 검증 기반 (verification-based) 방법은 토큰 수준 (token-level) 기준법보다 일관되게 우수한 성능을 발휘합니다. 둘째, 신뢰성 지향적 (trustworthiness-oriented) 벤치마크에서는 불확실성 방법들의 상대적 효과성이 모델과 벤치마크에 크게 의존하는 것으로 나타났으며, 이는 일반 추론 설정에서 도출된 결론이 환각 및 답변 불가능한 질문 시나리오로 직관적으로 전이되지 않음을 시사합니다. 우리는 또한 불확실성 기반 적응형 추론 (uncertainty-based adaptive inference) 을 잠재적인 하류 응용 분야로 추가로 탐구했습니다. 본 연구가 신뢰 가능하고 불확실성을 인식하는 오디오-언어 시스템에 대한 미래 연구를 위한 기초를 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0