arXiv논문2026. 04. 27. 22:37

MathDuels: LLM 을 문제 제시자와 해결자로 평가하기

요약

MathDuels는 LLM의 능력을 단순히 고정된 문제집을 푸는 해결자(solver)로만 평가하는 기존 방식의 한계를 극복하기 위해 개발된 새로운 자기 대결 벤치마크입니다. 이 벤치마크는 모델에게 수학 문제를 제시하는 '문제 제시자(poser)'와 다른 참가자가 만든 문제를 푸는 '해결자(solver)'라는 두 가지 역할을 동시에 수행하게 합니다. 실험 결과, 문제 제시 능력과 해결 능력은 서로 독립적인 능력이며, MathDuels를 통해 이러한 분리된 능력을 효과적으로 측정할 수 있음을 입증했습니다.

핵심 포인트

기존의 정적 수학 벤치마크는 모델을 고정된 문제집의 '해결자'로만 취급하여 성능 차별화에 한계가 있다.
MathDuels는 LLM에게 문제를 생성하는 '문제 제시자(poser)'와 다른 문제가 만든 것을 푸는 '해결자(solver)'라는 이중 역할을 부여한다.
실험 결과, 모델의 문제 제시 능력과 해결 능력은 부분적으로 분리된 독립적인 능력임이 밝혀졌다.
MathDuels 벤치마크는 새로운 LLM의 등장에 따라 난이도가 고정되지 않고 참가자의 강도와 함께 공진화(co-evolve)한다.

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Frontier 언어 모델들이 정적 수학 벤치마크에서 거의 천장 성능에 도달함에 따라, 기존 평가 방법들은 모델의 능력을 차별화하는 데 점점 더 무력해지고 있습니다. 이는 주로 모델을 고정된 문제集的 해결자 (solver) 로만 취급하기 때문입니다. 우리는 각자가 적대적 프롬프팅 (adversarial prompting) 하에 수학 문제를 제시하고 (poser), 다른 모든 참가자가 작성한 문제를 해결하는 (solver) 이중 역할을 수행하는 모델의 자기 대결 벤치마크인 MathDuels 를 소개합니다. 문제는 세 단계 생성 파이프라인 (meta-prompting, problem generation, difficulty amplification) 을 통해 생성되며, 부적절하게 제시된 질문이 배제되도록 독립적인 검증자 (verifier) 에 의해 검증됩니다. Rasch 모델 (Rasch, 1993) 은 해결자의 능력과 문제의 난이도를 동시에 추정하며, 작성자의 품질은 각 모델이 작성한 문제들의 난이도에서 유추됩니다. 19 개의 frontier 모델을 대상으로 한 실험 결과, 문제 제시 능력과 해결 능력은 부분적으로 분리되어 있으며, 단일 역할 벤치마크에서는 보이지 않는 능력의 분리를 이중 역할 평가가 드러낸다는 사실이 밝혀졌습니다. 새로운 모델들이 무대에 등장함에 따라 이전까지 우세했던 해결자들을 꺾는 문제를 생성하므로, 벤치마크의 난이도는 고정된 천장에 도달하는 대신 참가자의 강도와 함께 공진화 (co-evolve) 합니다. 우리는 새로운 모델이 출시될 때마다 업데이트되는 공개 리더보드를 호스팅합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MathDuels: LLM 을 문제 제시자와 해결자로 평가하기

요약

핵심 포인트

MathDuels: Evaluating LLMs as Problem Posers and Solvers

댓글