arXiv논문2026. 06. 18. 10:53

IndicContextEval: 8개 인도 언어에 걸친 오디오 거대 언어 모델(Audio LLMs)의 문맥 활용 능력 평가를 위한 벤치마크

요약

오디오 거대 언어 모델(Audio LLMs)이 텍스트 프롬프트의 문맥을 실제로 활용하는지 평가하기 위한 새로운 벤치마크인 IndicContextEval을 제안합니다. 8개 인도 언어와 23개 전문 도메인을 대상으로 모델의 문맥적 접지 능력을 다각도로 분석합니다.

핵심 포인트

Audio LLM의 문맥 활용 능력과 파라미터 지식 의존성 구분 필요성 제기
8개 인도 언어 및 23개 도메인을 포함한 56시간 분량의 다국어 벤치마크 구축
7단계 프롬프팅 프레임워크를 통한 점진적 문맥 도입 및 평가 설계
모델별 문맥 활용 행동의 유의미한 차이 확인 및 명시적 평가의 중요성 강조

AudioLLMs(오디오 거대 언어 모델)는 도메인 설명이나 엔티티(entity) 목록과 같은 텍스트 프롬프트(textual prompts)를 조건으로 음성 인식을 가능하게 합니다. 그러나 이러한 모델들이 실제로 그러한 문맥(context)을 활용하는지, 아니면 사전 학습(pretraining) 과정에서 습득한 파라미터 지식(parametric knowledge)에 의존하는지는 여전히 불분명합니다. 기존의 벤치마크들은 고정된 프롬프팅 조건 하에서 전사(transcription)를 평가하며, 명시적인 문맥 입력을 포함하는 경우가 드물기 때문에 이 질문에 답할 수 없습니다. 우리는 8개의 인도 언어와 23개의 전문 도메인에 걸쳐 555명의 화자가 생성한 56시간 분량의 다국어 자연 음성 벤치마크인 IndicContextEval을 소개합니다. 우리는 메타데이터, 자연어 설명, 영어 및 현지 문자로 된 엔티티 목록, 그리고 잘못된 엔티티를 포함한 적대적 프롬프트(adversarial prompts)를 점진적으로 도입하는 7단계 프롬프팅 프레임워크를 설계했습니다. 5개의 모델을 평가한 결과, 문맥 활용 행동에서 상당한 차이가 있음이 드러났으며, 이는 AudioLLMs에서 문맥적 접지(contextual grounding)에 대한 명시적인 평가가 필요함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IndicContextEval: 8개 인도 언어에 걸친 오디오 거대 언어 모델(Audio LLMs)의 문맥 활용 능력 평가를 위한 벤치마크

요약

핵심 포인트

댓글