GlobeAudio: 대규모 오디오-언어 모델(LALMs)의 자연스러운 평가를 위한 다국어·다문화 벤치마크
요약
LALMs의 언어적·문화적 진정성을 평가하기 위한 다국어·다문화 벤치마크인 GlobeAudio를 제안합니다. 6개 언어의 5,637개 문항을 통해 모델의 청각적 추론 및 문화적 해석 능력을 검증합니다.
핵심 포인트
- LALMs를 위한 다국어·다문화 벤치마크 GlobeAudio 제안
- 6개 언어, 5,637개의 객관식 질문으로 구성된 데이터셋
- 오픈 소스 모델과 저자원 언어에서의 성능 격차 확인
- 고차원적 청각 추론 및 문화적 맥락 이해 능력 평가
대규모 오디오-언어 모델 (Large Audio-Language Models, LALMs)은 오디오 인지 (audio perception)와 언어 이해 (language understanding)를 하나의 통합된 프레임워크 내에 통합하여, 광범위한 실세계 응용 분야를 가능하게 합니다. 최근의 발전에도 불구하고, LALMs에 대한 평가는 실세계 요구 사항에 비해 여전히 매우 불충분한 상태입니다. 대부분의 평가는 진정한 언어적 및 문화적 진정성 (authenticity)이 부족하며, 일부는 음향적 사실주의 (acoustic realism)를 포착하는 데 실패합니다. 이러한 격차를 해소하기 위해, 우리는 자연스러운 오디오 이해를 평가하도록 설계된 다국어 및 다문화 벤치마크인 GlobeAudio를 제안합니다. GlobeAudio는 자연적으로 발생하는 오디오를 기반으로 원어민들이 전문적으로 제작한, 유형론적으로 다양한 6개 언어에 걸친 5,637개의 객관식 질문으로 구성됩니다. 모델이 높은 성적을 거두기 위해서는 고차원적인 청각적 추론 (auditory reasoning) 기술과 문화적으로 근거한 해석 능력을 갖추어야 합니다. 우리는 대표적인 폐쇄형 (closed-source) 및 오픈 소스 (open-source) LALMs, 그리고 계층적 ASR-LLM 파이프라인을 체계적으로 평가합니다. 우리의 실험 결과, 특히 오픈 소스 모델과 저자원 언어 (low-resource languages)의 경우 자연스러운 음향 조건 하에서 상당한 성능 격차가 나타남을 확인했습니다. 이러한 발견은 현재 LALMs의 결정적인 한계를 강조하며, 향후 오디오-언어 시스템을 위한 자연스러운 오디오 평가의 중요성을 역설합니다. GlobeAudio는 https://huggingface.co/datasets/iNLP-Lab/GlobeAudio 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기