arXiv논문2026. 06. 12. 11:11

MaxProof: 생성기-검증기 RL 및 개체 수준 테스트 시간 스케일링으로 수학적 증명 확장

요약

본 글은 MiniMax-M3 시리즈를 위한 개체(population)-수준 테스트 시간 스케일링 프레임워크인 MaxProof를 소개합니다. MaxProof는 증명 생성, 검증, 복구 기능을 통합하여 모델의 성능을 향상시켰습니다. 이 방법을 통해 M3 모델은 IMO 2025와 USAMO 2026 등 주요 수학 경시대회에서 인간 금메달리스트 수준을 초과하는 높은 점수를 달성했습니다.

핵심 포인트

MaxProof는 개체(population)-수준 테스트 시간 스케일링 프레임워크입니다.
MiniMax-M3 모델은 증명 생성, 검증, 복구 기능을 통합합니다.
MaxProof 적용 결과, IMO 2025와 USAMO 2026에서 높은 점수를 기록했습니다.

우리는 MiniMax-M3 시리즈의 대회 수준 수학 증명을 위한 개체(population)-수준 테스트 시간 스케일링 프레임워크인 MaxProof를 제시합니다. M3는 낮은 위양성률을 위해 설계된 생성기 검증기(generative verifier)를 사용하여 세 가지 증명 지향적 기능, 즉 증명 생성(proof generation), 증명 검증(proof verification), 그리고 비평 조건부 증명 복구(critique-conditioned proof repair)를 훈련합니다. 이 기능들은 단일 출시된 M3 모델로 통합됩니다. 테스트 시간에서 MaxProof는 해당 모델을 생성기(generator), 검증기(verifier), 정제기(refiner), 순위 매기기 장치(ranker)로 취급하고, 후보 증명들의 개체 집합(population)을 탐색한 후 토너먼트 선택(tournament selection)을 통해 하나의 최종 증명을 반환합니다. MaxProof 테스트 시간 스케일링을 적용하여 M3 모델은 IMO 2025에서 42점 만점에 35점을, USAMO 2026에서 42점 만점에 36점을 달성하며, 두 대회 모두 인간 금메달리스트의 기준치를 초과했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MaxProof: 생성기-검증기 RL 및 개체 수준 테스트 시간 스케일링으로 수학적 증명 확장

요약

핵심 포인트

댓글