PolySpeech-100: 100개 이상의 언어 및 방언을 아우르는 대규모 음성 이해 벤치마크
요약
PolySpeech-100은 110개 언어 및 방언을 아우르는 대규모 음성 이해 벤치마크입니다. 기존 벤치마크의 언어 편향과 저수준 인식 한계를 극복하기 위해 설계되었으며, 최신 Speech-LLM들의 성능을 다각도로 평가합니다.
핵심 포인트
- 110개 언어 변이형을 포함하는 대규모 음성 벤치마크 제안
- E2E 모델이 방언 환경에서 캐스케이드 시스템보다 우수함 입증
- 상용 모델 대비 오픈 소스 모델의 저자원 언어 성능 취약성 확인
- 음성 이해 작업에서 CoT 프롬프팅이 성능을 저하시키는 현상 발견
종단간 (End-to-End, E2E) 음성-대규모 언어 모델 (Speech-LLMs)이 빠르게 진화하고 있지만, 이들의 평가 방법론은 여전히 단순 전사 (Transcription) 시대에 머물러 있습니다. 기존의 벤치마크들은 세 가지 결정적인 한계를 가지고 있습니다: 고자원 언어 (High-resource languages)에 대한 뚜렷한 편향, 의미론적 추론 (Semantic reasoning)보다는 저수준의 인식 (ASR)에 집중된 경향, 그리고 지역 방언 (Regional dialects)의 소외입니다. 이러한 격차를 해소하기 위해, 우리는 110개의 언어 변이형에 걸쳐 '원어민 수준'의 음성 이해력을 평가하도록 설계된 대규모 벤치마크인 PolySpeech-100을 소개합니다. 우리는 골드 스탠다드 (Gold-standard) 인간 녹음 데이터에 지시어 기반의 합성 음성 (Synthetic speech)을 증강하는 새로운 하이브리드 구축 파이프라인을 채택하여, 19개의 서로 다른 중국어 방언과 80개 이상의 저자원 언어 (Low-resource languages)를 포괄할 수 있게 했습니다. 22개의 최첨단 모델 (Gemini-3, GPT-Audio, Qwen2.5-Omni 포함)에 대한 광범위한 평가를 통해 핵심적인 통찰을 얻었습니다. 첫째, 우리는 오픈 소스 E2E 모델이 심한 방언 환경에서 캐스케이드 (Cascade, ASR+LLM) 시스템보다 우수한 성능을 보임을 입증하였으며, 이는 직접적인 오디오 처리가 표준 전사 과정에서 흔히 손실되는 중요한 준언어적 단서 (Paralinguistic cues) 및 운율적 특징 (Prosodic features, 예: 억양, 강세)을 보존한다는 것을 증명합니다. 둘째, 우리는 상당한 성능 격차를 발견했습니다. 상용 모델들은 강건성 (Robustness)을 유지하는 반면, 오픈 소스 모델들은 저자원 언어에서 치명적인 성능 저하를 겪습니다. 마지막으로, 직관과는 반대로 표준 제로샷 (Zero-shot) 설정 하에서 사고 사슬 (Chain-of-Thought, CoT) 프롬프팅이 평가된 대부분의 모델에서 음성 이해 성능을 빈번하게 저하시키는 것을 관찰하였으며, 이는 현재의 아키텍처에서 잠재적인 모달리티 정렬 (Modality alignment) 격차가 존재함을 드러냅니다. PolySpeech-100은 차세대 포용적이고 전방위적인 능력을 갖춘 음성-LLM (Speech-LLMs)을 위한 엄격한 표준을 수립합니다. 데이터, 데모 및 코드는 https://github.com/YoungSeng/PolySpeech-100 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기