arXiv논문2026. 06. 08. 10:33

mmPISA-bench: LLM은 43개 언어 전반에서 동일하게 잘 추론하는가?

요약

43개 언어를 대상으로 LLM의 다국어 추론 능력을 평가하는 새로운 벤치마크인 mmPISA-bench를 소개합니다. 연구 결과, 현대 LLM은 인간 수준의 정확도를 보이며 기계 번역 데이터도 평가에 유효함을 확인했습니다.

핵심 포인트

43개 언어와 25개 추론 질문으로 구성된 mmPISA-bench 제안
LLM이 다국어 환경에서 인간과 대등한 추론 정확도 달성
고품질 기계 번역(합성 데이터)이 추론 평가에 효과적임을 입증
특정 언어에서는 높은 비용 대비 낮은 정확도가 나타나는 비효율성 발견

우리는 OECD 국제 학생 평가 프로그램 (PISA)에서 파생된 작고 고품질인 다국어 추론 벤치마크 (benchmark)인 mmPISA-bench를 소개합니다. 이 벤치마크는 정답을 맞히기 위해 추론 (reasoning)이 필요한 25개의 객관식 질문으로 구성되어 있습니다. 각 질문은 43개 언어에 대한 공식 인적 번역 (human translations)으로 제공되며, 기계 번역 (machine-translated) 대응물로 보완되었습니다 (즉, 총 2,150개의 데이터 포인트). 우리는 두 가지 주요 폐쇄형 LLM (proprietary LLMs)을 대상으로 언어, 추론 노력 수준, 번역 유형에 따른 질문 정답 능력을 평가합니다. 우리의 결과는 현대의 LLM이 평가된 모든 언어에 걸쳐 효과적으로 추론할 수 있으며, 일부 언어 간 성능 차이는 있으나 인간 응시자와 대등한 정확도를 달성함을 보여줍니다. 나아가 우리는 기계 번역된 질문이 공식 인적 번역에 비해 정확도를 저하시키지 않는다는 것을 발견했으며, 이는 공식 번역을 사용할 수 없는 대규모 다국어 추론 평가에서 고품질 기계 번역 (합성 데이터 (synthetic data))이 종종 적절할 수 있음을 시사합니다. 마지막으로, 토큰 사용량 (token usage) 및 관련 추론 비용 (inference cost)을 분석한 결과, 일부 언어에서의 LLM 사용은 더 비싼 동시에 정확도는 더 낮다는 것을 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

mmPISA-bench: LLM은 43개 언어 전반에서 동일하게 잘 추론하는가?

요약

핵심 포인트

댓글