arXiv논문2026. 05. 04. 19:42

벤치마크를 넘어: LLM 을 위한 수학 평가 플랫폼 'MathArena'

요약

기존의 정적인 벤치마크로는 대형 언어 모델(LLMs)의 진화하는 수학적 능력을 측정하기 어렵습니다. 이에 따라, 본 글은 기존 MathArena를 확장하여 증명 기반 경쟁, arXiv 문제, Lean 형식 증명 등 광범위한 작업을 포괄하는 지속적으로 유지되는 평가 플랫폼을 소개합니다. 이 플랫폼은 LLM이 매우 어려운 수학적 문제를 해결할 수 있는 능력이 빠르게 향상되고 있음을 보여주며, 모델 비교 및 진행 상황 추적에 중요한 기준점을 제시합니다.

핵심 포인트

정적인 벤치마크는 범위가 좁고 업데이트가 느려 LLM의 진화하는 수학 능력 평가에 한계가 있다.
MathArena는 기존 범위를 넘어 증명 기반 경쟁, arXiv 문제, Lean 형식 증명 등 광범위한 고급 수학적 추론 작업을 포함하도록 확장되었다.
이 플랫폼은 모델 비교를 위해 명확하고 일관된 평가 프로토콜을 유지하며 지속적으로 새로운 도전 과제를 추가한다.
최신 프론티어 모델(예: GPT-5.5)은 USA Math Olympiad와 같은 매우 어려운 문제에서도 높은 성능을 보여주며 LLM의 수학적 추론 능력이 급속히 발전하고 있음을 입증했다.

대형 언어 모델 (LLMs) 은 점점 더 능숙한 수학적 협력자가 되지만, 정적인 벤치마크는 진행 상황을 평가하기 위해 더 이상 충분하지 않습니다. 그 이유는 종종 범위가 좁고, 빠르게 포화 상태이며, 거의 업데이트되지 않기 때문입니다. 이는 모델을 신뢰할 수 있게 비교하고 시간에 따른 진행 상황을 추적하는 것을 어렵게 만듭니다. 대신 우리는 지속적으로 유지되는 시스템을 갖춘 평가 플랫폼이 필요합니다. 이러한 플랫폼은 많은 벤치마크를 실행하고 집계하며 분석하여 광범위한 도메인 내에서 모델 성능에 대한 종합적인 그림을 제공합니다.

이 작업에서는 원래 MathArena 벤치마크를 기반으로, 최종 답안 올림피아드 문제에서 LLM 과의 수학적 추론을 위한 지속적으로 유지되는 평가 플랫폼으로 그 범위를 현저히 확대했습니다. MathArena 는 이제 증명 기반 경쟁, 연구 수준의 arXiv 문제, 그리고 Lean 의 형식 증명 생성을 포함한 훨씬 더 넓은 범위의 작업을 포함합니다. 또한, 우리는 모든 모델에 대해 명확한 평가 프로토콜을 유지하며, 모델의 능력이 개선됨에 따라 새로운 벤치마크를 정기적으로 설계하여 MathArena 가 여전히 도전적인 것을 보장합니다.

특히, 가장 강력한 모델인 GPT-5.5 은 2026 년 USA Math Olympiad 에서 98%, 연구 수준의 문제에서 74% 를 달성하여 프론티어 모델이 이제 매우 어려운 수학적 문제를 편안하게 해결할 수 있음을 보여줍니다. 이는 LLM 의 수학 추론의 빠른 진행 상황을 추적하기 위해 MathArena 와 같은 지속적으로 유지되는 평가 플랫폼의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

벤치마크를 넘어: LLM 을 위한 수학 평가 플랫폼 'MathArena'

요약

핵심 포인트

댓글