UrduMMLU: 우르두어 언어 이해를 위한 대규모 멀티태스크 벤치마크
요약
우르두어 사용자를 위한 대규모 멀티태스크 벤치마크인 UrduMMLU를 소개합니다. 26개 과목과 26,431개의 문제를 포함하며, 기존 번역 방식이 아닌 현지 교육 자료를 기반으로 구축되었습니다. 30개의 LLM을 평가한 결과, Gemini-1.5-Flash가 가장 높은 성능을 보였습니다.
핵심 포인트
- 현지 교육 자료 기반의 26,431개 우르두어 MCQ 벤치마크 구축
- Gemini-1.5-Flash가 90% 이상의 정확도로 가장 우수한 성능 기록
- 대부분의 모델이 STEM 대비 인문학 과목에서 큰 성능 저하를 보임
- LLM의 우르두어 및 지역 특화 콘텐츠 이해도 불균형 확인
의미 있는 다국어 평가(multilingual evaluation)는 대상 언어와 교육적 맥락에서 모델을 테스트해야 합니다. 2억 3천만 명 이상의 사람들이 사용하는 우르두어(Urdu)는 현지 교육 자료를 기반으로 구축된 광범위한 MMLU 스타일의 벤치마크가 부족한 실정입니다. 우리는 26개 과목과 5개 영역에 걸쳐 26,431개의 우르두어 객관식 문제(MCQs)로 구성된 벤치마크인 UrduMMLU를 소개합니다. 이 데이터는 현지 우르두어 MCQ 뱅크와 공공 시험 PDF에서 수집되었습니다. 번역 기반의 리소스와 달리, UrduMMLU는 표준 학술 과목뿐만 아니라 우르두어 및 지역 특화 콘텐츠를 모두 다룹니다. 우리는 시험에서 유래된 부분을 엄격한 합의 필터링(consensus filtering)을 거친 이중 인간 주석(dual human annotation)을 통해 라벨링했습니다. 우리는 영어 및 우르두어 프롬프트(prompts) 하에서 30개의 대규모 언어 모델(LLMs)을 평가하여 60개의 제로샷(zero-shot) 평가를 수행하였으며, 두 프롬프트 언어 모두에서 다양한 퓨샷(few-shot) 설정 하에 4개의 오픈 소스 LLM을 추가로 평가했습니다. Gemini-3.5-Flash가 90.20%와 90.34%의 정확도를 기록하며 가장 우수한 성능을 보였으며, 다른 어떤 모델도 85%를 넘지 못했습니다. 가장 강력한 오픈 소스 모델은 7.79포인트와 8.92포인트 뒤처졌으며, 많은 모델이 STEM 과목에 비해 우르두어 중심의 인문학(Humanities) 과목에서 25~40포인트의 성능 저하를 보였습니다. 퓨샷 프롬프팅(Few-shot prompting)은 미미한 이득만을 가져왔습니다. UrduMMLU는 현재의 LLM에서 우르두어 지식이, 특히 지역에 기반을 둔 콘텐츠에 대해 여전히 불균형함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기