Introducing a new paper! Beyond Benchmarks: MathArena as an Evaluation Platform

새로운 논문 소개합니다! Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs

정적 벤치마크는 더 이상 충분하지 않습니다. 모델이 너무 빠르게 개선되고 숫자는 매우 빨리 낡아갑니다. 대신, 우리는 지속적으로 유지되는 평가 플랫폼을 주장합니다.

이 타임라인은 벤치마크와 평가 플랫폼 사이의 주요 차이를 잘 보여줍니다: 플랫폼은 벤치마크를 계속 추가하고 제거하여 광범위한 도메인에서의 성능에 대한 포괄적이고 최신의 관점을 제공합니다.

더 일반적으로, 우리는 평가 플랫폼의 세 가지 중요한 기능을 식별합니다:

진화하는 모델 능력을 적응시키기 위해 새로운 벤치마크 소개
새 모델에서 정기적으로 재실행
정확도 등의 집계 지표 이상의 지표를 보여주는 광범위한 공개 인터페이스

MathArena 자체는 AI4Math에 중요한 다양한 능력을 포착하기 위해 다양한 벤치마크로 구성되어 있습니다: 최종 답변 문제 해결, 증명 작성, Lean 의 형식 증명, ...

모델이 더 좋아질수록 우리는 이러한 벤치마크를 계속 업데이트하고 확장할 것입니다.

우리의 많은 결과는 이미 블로그 게시글에서 논의되었습니다 (https://matharena.ai/blogs). 대신, 우리는 모든 이 게시물에서 얻은 주요 통찰력에 집중합니다.

첫째, 진전은 비정상적입니다: 한 년 만에 최상위 성능은 45% 에서 84% 로 증가했습니다.

둘째, 최종 답변 경기는 이제 완전히 포화 상태이며 더 이상 프론티어 모델을 구별할 수 없습니다. 그러나 그들은 여전히 작은 모델에 가치 있고 연구 및 산업에서 새로운 방법의 영향을 측정하기 위한 표준 벤치마크로 사용됩니다.

셋째, 모델은 증명 품질에서도 다릅니다. 이는 해답이 얼마나 명확하게 제시되는지와 관련되며, 정확성과 무관합니다. 우리 인간 판사는 GPT-5.4 의 증명이 가장 쉽게 따라갈 수 있다고 발견했습니다. 반면 Qwen-3.5 는 주요 단계에서 너무 간결하고 GLM 은 너무 방대했습니다.

우리는 여러 가지 다른 주요 통찰력을 가지고 있습니다, 그 중 모델은 여전히 빈번하게 잘못된 연구 진술을 증명하고 Lean 은 여전히 매우 어려운 과제입니다. 우리는 다음 몇 달 동안 이러한 영역에서의 진전을 매우 기대합니다.

물론 MathArena 는 여전히 흥미로운 능력을 측정하기 위해 많은 기능이 부족하며, 이는 상호 작용 문제 해결, 문제 해결을 넘어선 수학 작업, 그리고 우리가 현재 허용하는 것보다 더 넓은 도구 사용을 포함합니다. 우리는 이러한 기능을 측정하기 위해 MathArena 를 계속 확장할 것입니다.

많은 훌륭한 사람들과 함께한 놀라운 작업:
@ni_jovanovic, @TimGMath, @karirogg, @IvoPetrov01, @Chenhao3564, 그리고 @mvechev.

논문 링크: https://arxiv.org/abs/2605.00674
웹사이트 링크: https://matharena.ai

Insights

Introducing a new paper! Beyond Benchmarks: MathArena as an Evaluation Platform

요약

핵심 포인트

댓글

Kdrant: Qdrant를 위한 관용적이고 코루틴 우선적인 Kotlin 클라이언트

AI는 SaaS 프로토타입을 생성할 수 있지만, 제품을 구축하는 데는 여전히 수개월이 걸립니다.

【사실은 반대】 Claude Code나 Codex에 매번 금지어를 입력하는 사람들을 위한 해결책

🚨 드론을 이용한 전문적인 매핑: OpenDroneMap (ODM)

Kdrant: Qdrant를 위한 관용적이고 코루틴 우선적인 Kotlin 클라이언트

AI는 SaaS 프로토타입을 생성할 수 있지만, 제품을 구축하는 데는 여전히 수개월이 걸립니다.

【사실은 반대】 Claude Code나 Codex에 매번 금지어를 입력하는 사람들을 위한 해결책

🚨 드론을 이용한 전문적인 매핑: OpenDroneMap (ODM)