MA-ProofBench: GPT-5.5, 수학 해석학 분야에서 16% 달성, 대부분의 모델은 0%에 근접

요약

수학 해석학 분야의 새로운 정리 증명 벤치마크인 MA-ProofBench가 공개되었습니다. GPT-5.5는 학부 수준에서 16%의 성능을 보였으나, 박사 수준의 고난도 문제에서는 대부분의 모델이 0%에 가까운 성능을 기록하며 한계를 드러냈습니다.

핵심 포인트

MA-ProofBench는 수학 해석학 특화 형식적 정리 증명 벤치마크임
GPT-5.5는 학부 수준 16%, 박사 수준 5%의 Pass@8 기록
주요 실패 원인은 Mathlib 환각 및 불완전한 증명으로 분석됨
비형식적 추론과 형식적 추론 사이의 명확한 격차 존재

수학 해석학 (mathematical analysis)을 위한 새로운 정리 증명 (theorem-proving) 벤치마크인 MA-ProofBench에 따르면, GPT-5.5는 학부 수준 문제에서 16%, 박사(PhD) 수준 문제에서 5%를 달성했으며, 더 어려운 문제 세트에서는 대부분의 모델이 0%에 근접했습니다.

2026년 6월 arXiv 프리프린트(preprint)에 따르면, GPT-5.5는 MA-ProofBench의 학부 수준 정리 증명 문제에서 16%의 Pass@8을 기록했으며, 박사 수준에서는 5%를 기록했습니다. 테스트된 대부분의 모델은 더 어려운 문제 세트에서 0%를 겨우 넘는 수준을 보였습니다.

주요 사실 (Key facts)

GPT-5.5는 Level I에서 16% Pass@8, Level II에서 5%를 달성했습니다.
대부분의 모델은 Level II 박사 수준 문제에서 0%에 가까운 점수를 기록했습니다.
이 벤치마크는 6개의 핵심 주제에 걸쳐 200개의 정리를 포함하고 있습니다.
두 가지 주요 실패 모드 (failure modes): Mathlib 환각 (hallucinations) 및 불완전한 증명 (incomplete proofs).
자연어 (Natural-language) 버전은 명확한 비형식적-형식적 추론 격차 (informal-formal reasoning gap)를 보여줍니다.

연구진은 수학 해석학에 특화된 최초의 형식적 정리 증명 (formal theorem-proving) 벤치마크인 MA-ProofBench를 공개했습니다 (arXiv 프리프린트에 따르면). 이 벤치마크는 측도론 (measure theory), 복소해석학 (complex analysis), 함수해석학 (functional analysis)을 포함하여 6개의 핵심 주제와 27개의 하위 범주에 걸친 200개의 정리를 포함합니다. 문제는 두 가지 난이도 단계로 나뉩니다: Level I (학부 수준, 100문제) 및 Level II (박사 자격 시험 수준, 100문제).

결과: 고급 추론에서 0%에 근접

Level I에서 GPT-5.5는 16%의 Pass@8을 달성한 반면, 대부분의 다른 범용 추론 모델과 형식적 정리 증명기 (formal theorem provers)는 10% 미만의 점수를 기록했습니다. Level II에서 GPT-5.5는 5%로 떨어졌으며, 대다수의 모델은 0%에 가깝게 머물렀습니다. 저자들은 기존의 형식적 벤치마크들이 대수학 (algebra)이나 기초 정수론 (elementary number theory)과 같이 형식화하기 쉬운 분야에 집중되어 있어, 더 깊은 추론을 요구하는 고급 영역에는 공백이 있다고 언급했습니다.

실패 모드: 환각 및 불완전성

논문은 두 가지 주요 실패 모드(failure modes)를 식별했습니다: Mathlib 환각(모델이 존재하지 않는 라이브러리 엔티티를 참조하며 그럴듯해 보이지만 틀린 Lean 코드를 생성하는 현상)과 불완전한 증명(모델이 올바르게 시작하지만 끝마치지 못하는 현상)입니다. 동일한 문제의 자연어 버전에 대한 평가 결과, 비형식적(informal) 추론과 형식적(formal) 추론 사이에 명확한 격차가 있음이 드러났습니다. 즉, 모델들은 형식적 구문(formal syntax)에 제약을 받지 않을 때 훨씬 더 나은 성능을 보였습니다.

AI 추론에 대한 시사점

MA-ProofBench는 고급 수학 분야에서 엄격한 형식적 추론(formal reasoning)을 수행하는 현재 LLM(대규모 언어 모델)들의 능력에 뚜렷한 한계가 있음을 드러냅니다. Level II에서의 0%에 가까운 성능은 GPT-5.5와 같은 최첨단(frontier) 시스템을 포함한 오늘날의 모델들이 박사 과정 수준의 형식적 증명을 처리할 수 있는 깊이가 부족함을 시사합니다. 이 벤치마크는 진전 상황을 추적하기 위한 참조용으로 의도되었으나, 현재 결과는 해석학에서의 형식적 정리 증명(formal theorem proving)이 여전히 대체로 해결되지 않은 상태임을 나타냅니다.

주목해야 할 점

향후 MA-ProofBench에 대한 모델 출시, 특히 OpenAI와 Anthropic의 행보를 주목하십시오. 이 벤치마크의 공개 리더보드는 차세대 추론 모델들이 Level II에서 20%의 장벽을 깨뜨릴 수 있을지, 아니면 형식적 해석학을 다루기 위해 아키텍처(architectural)의 변화가 필요한지를 보여줄 것입니다.

Figure 3: Overview of the curation workflow of MA-ProofBench, comprising Problem Collection, Formalization, Independent

출처: arxiv.org

원문 게시지: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기