arXiv논문2026. 04. 29. 12:53

불확실성을 걷다: 오디오 인식 대규모 언어 모델의 불확실성 추정에 대한 경험적 연구

요약

본 연구는 오디오 인식 대규모 언어 모델(ALLMs)의 불확실성 추정(uncertainty estimation)에 대한 체계적인 경험적 연구를 제시합니다. 기존 LLM에서 주로 다루어졌던 이 주제를 ALLM 환경, 특히 지각적 모호성과 교차 모드 정합이 필요한 오디오 조건부 생성에 적용하여 새로운 도전 과제를 탐구했습니다. 다양한 엔트로피 기반 방법론과 P(True) 등을 벤치마크하고, 의미 수준 및 검증 기반 방법이 토큰 수준보다 우수하며, 불확실성 추정의 효과성이 모델과 시나리오에 따라 달라진다는 주요 발견을 보고합니다.

핵심 포인트

ALLMs는 오디오 이해에서 강력하지만, 환각이나 과도한 자신감 문제를 해결하기 위한 체계적인 불확실성 추정 연구가 필요하다.
본 연구에서는 예측 엔트로피, 의미 엔트로피 등 5가지 대표적 방법을 다양한 평가 설정(추론, 환각 감지, 답변 불가 질문)에서 비교 분석했다.
일반 오디오 추론 시나리오에서는 토큰 수준보다 의미 수준 또는 검증 기반의 불확실성 방법이 더 일관되고 우수한 성능을 보였다.
불확실성 추정 방법의 효과성은 모델과 평가 벤치마크에 크게 의존하므로, 일반적인 결론을 다른 시나리오로 무분별하게 적용해서는 안 된다.

최근 오디오 인식 대규모 언어 모델 (Audio-Aware Large Language Models, ALLMs) 은 다양한 오디오 이해 및 추론 작업에서 강력한 능력을 입증해 왔으나, 여전히 환각 (hallucination) 이나 지나치게 자신감 있는 출력을 자주 생성합니다. 불확실성 추정 (uncertainty estimation) 은 텍스트 전용 LLM 에서 광범위하게 연구되어 왔지만, 지각적 모호성 (perceptual ambiguity) 과 교차 모드 정합 (cross-modal grounding) 과 같은 추가적인 도전 과제가 발생하는 오디오 조건부 생성이 도입된 ALLM 에 대해서는 여전히 크게 탐구되지 않았습니다. 본 연구에서는 ALLM 의 불확실성 추정에 대한 첫 번째 체계적인 경험적 연구를 제시합니다. 우리는 일반 오디오 이해, 추론, 환각 감지, 그리고 답변 불가능한 질문 응답에 이르는 다양한 평가 설정을 아우르며 예측 엔트로피 (predictive entropy), 길이 정규화 엔트로피 (length-normalized entropy), 의미 엔트로피 (semantic entropy), 이산적 의미 엔트로피 (discrete semantic entropy), 그리고 P(True) 를 포함한 5 가지 대표적인 방법을 벤치마크로 삼았습니다. 우리의 결과는 두 가지 주요 발견을 보여줍니다. 첫째, 일반 오디오 추론 벤치마크에서 의미 수준 (semantic-level) 과 검증 기반 (verification-based) 방법은 토큰 수준 (token-level) 기준법보다 일관되게 우수한 성능을 발휘합니다. 둘째, 신뢰성 지향적 (trustworthiness-oriented) 벤치마크에서는 불확실성 방법들의 상대적 효과성이 모델과 벤치마크에 크게 의존하는 것으로 나타났으며, 이는 일반 추론 설정에서 도출된 결론이 환각 및 답변 불가능한 질문 시나리오로 직관적으로 전이되지 않음을 시사합니다. 우리는 또한 불확실성 기반 적응형 추론 (uncertainty-based adaptive inference) 을 잠재적인 하류 응용 분야로 추가로 탐구했습니다. 본 연구가 신뢰 가능하고 불확실성을 인식하는 오디오-언어 시스템에 대한 미래 연구를 위한 기초를 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

불확실성을 걷다: 오디오 인식 대규모 언어 모델의 불확실성 추정에 대한 경험적 연구

요약

핵심 포인트

댓글