단순하고 통합된 스케일링을 통한 올림피아드 수준의 금메달급 추론 달성
요약
본 논문은 사후 학습된 추론 백본을 올림피아드 수준의 문제 해결사로 변환하는 단순하고 통합적인 레시피를 제시합니다. 이 방법론은 역-퍼플렉시티 커리큘럼을 사용한 SFT와 검증 가능한 보상을 활용하는 2단계 RL 파이프라인을 통해 증명 탐색 및 자기 점검 능력을 주입하며, 테스트 시간 스케일링으로 성능을 극대화합니다. 이 레시피를 적용한 SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달 수준의 추론 성능과 강력한 일반화 능력을 입증했습니다.
핵심 포인트
- 올림피아드 수준의 문제 해결사로 변환하는 통합적인 방법론 제시
- SFT 단계에서는 역-퍼플렉시티 커리큘럼을 사용하여 증명 탐색 및 자기 점검 행동 주입
- 2단계 RL 파이프라인은 검증 가능한 보상을 활용하여 정교한 증명 수준의 능력을 스케일링함
- 테스트 시간 스케일링을 통해 최종 해결 성능을 향상시킴
- SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달급 성능과 강력한 일반화 능력을 보여줌
추론 모델(reasoning models)의 최근 발전은 장기적인 수학 및 과학 문제 해결 능력을 실질적으로 향상시켰으며, 현재 여러 시스템이 국제 수학 올림피아드(IMO) 및 국제 물리 올림피아드(IPhO) 문제에서 금메달 수준의 성능에 도달했습니다. 본 논문에서는 사후 학습된(post-trained) 추론 백본(backbone)을 엄격한 올림피아드 수준의 해결사(solver)로 변환하기 위한 단순하고 통합된 레시피를 소개합니다. 이 레시피는 먼저 엄격한 증명 탐색(proof-search) 및 자기 점검(self-checking) 행동을 주입하기 위해 SFT(Supervised Fine-Tuning)를 위한 역-퍼플렉시티 커리큘럼(reverse-perplexity curriculum)을 사용하며, 그다음 검증 가능한 보상(verifiable rewards)을 사용하는 RL(Reinforcement Learning)에서 더 정교한 증명 수준의 RL로 진행되는 2단계 RL 파이프라인을 통해 이러한 행동들을 스케일링(scaling)하고, 마지막으로 테스트 시간 스케일링(test-time scaling)을 통해 해결 성능을 높입니다. 이 레시피를 적용하여, 우리는 약 340K개의 8K 토큰 미만 궤적(trajectories)에 대한 SFT를 거친 후 200단계의 RL을 수행하여 30B-A3B 백본을 학습시켰습니다. 그 결과물인 SU-01 모델은 100K 토큰을 초과하는 궤적을 통해 어려운 문제에 대해 안정적인 추론을 지원하며, IMO 2025/USAMO 2026 및 IPhO 2024/2025를 포함한 수학 및 물리 올림피아드 대회에서 금메달 수준의 성능을 달성했습니다. 또한 수학과 물리를 넘어선 영역으로 과학적 추론의 강력한 일반화(generalization) 능력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기