본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 10:33

mmPISA-bench: LLM은 43개 언어 전반에서 동일하게 잘 추론하는가?

요약

43개 언어를 대상으로 LLM의 다국어 추론 능력을 평가하는 새로운 벤치마크인 mmPISA-bench를 소개합니다. 연구 결과, 현대 LLM은 인간 수준의 정확도를 보이며 기계 번역 데이터도 평가에 유효함을 확인했습니다.

핵심 포인트

  • 43개 언어와 25개 추론 질문으로 구성된 mmPISA-bench 제안
  • LLM이 다국어 환경에서 인간과 대등한 추론 정확도 달성
  • 고품질 기계 번역(합성 데이터)이 추론 평가에 효과적임을 입증
  • 특정 언어에서는 높은 비용 대비 낮은 정확도가 나타나는 비효율성 발견

우리는 OECD 국제 학생 평가 프로그램 (PISA)에서 파생된 작고 고품질인 다국어 추론 벤치마크 (benchmark)인 mmPISA-bench를 소개합니다. 이 벤치마크는 정답을 맞히기 위해 추론 (reasoning)이 필요한 25개의 객관식 질문으로 구성되어 있습니다. 각 질문은 43개 언어에 대한 공식 인적 번역 (human translations)으로 제공되며, 기계 번역 (machine-translated) 대응물로 보완되었습니다 (즉, 총 2,150개의 데이터 포인트). 우리는 두 가지 주요 폐쇄형 LLM (proprietary LLMs)을 대상으로 언어, 추론 노력 수준, 번역 유형에 따른 질문 정답 능력을 평가합니다. 우리의 결과는 현대의 LLM이 평가된 모든 언어에 걸쳐 효과적으로 추론할 수 있으며, 일부 언어 간 성능 차이는 있으나 인간 응시자와 대등한 정확도를 달성함을 보여줍니다. 나아가 우리는 기계 번역된 질문이 공식 인적 번역에 비해 정확도를 저하시키지 않는다는 것을 발견했으며, 이는 공식 번역을 사용할 수 없는 대규모 다국어 추론 평가에서 고품질 기계 번역 (합성 데이터 (synthetic data))이 종종 적절할 수 있음을 시사합니다. 마지막으로, 토큰 사용량 (token usage) 및 관련 추론 비용 (inference cost)을 분석한 결과, 일부 언어에서의 LLM 사용은 더 비싼 동시에 정확도는 더 낮다는 것을 발견했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0