arXiv논문2026. 05. 14. 13:34

단순하고 통합된 스케일링을 통한 올림피아드 수준의 금메달급 추론 달성

요약

본 논문은 사후 학습된 추론 백본을 올림피아드 수준의 문제 해결사로 변환하는 단순하고 통합적인 레시피를 제시합니다. 이 방법론은 역-퍼플렉시티 커리큘럼을 사용한 SFT와 검증 가능한 보상을 활용하는 2단계 RL 파이프라인을 통해 증명 탐색 및 자기 점검 능력을 주입하며, 테스트 시간 스케일링으로 성능을 극대화합니다. 이 레시피를 적용한 SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달 수준의 추론 성능과 강력한 일반화 능력을 입증했습니다.

핵심 포인트

올림피아드 수준의 문제 해결사로 변환하는 통합적인 방법론 제시
SFT 단계에서는 역-퍼플렉시티 커리큘럼을 사용하여 증명 탐색 및 자기 점검 행동 주입
2단계 RL 파이프라인은 검증 가능한 보상을 활용하여 정교한 증명 수준의 능력을 스케일링함
테스트 시간 스케일링을 통해 최종 해결 성능을 향상시킴
SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달급 성능과 강력한 일반화 능력을 보여줌

추론 모델(reasoning models)의 최근 발전은 장기적인 수학 및 과학 문제 해결 능력을 실질적으로 향상시켰으며, 현재 여러 시스템이 국제 수학 올림피아드(IMO) 및 국제 물리 올림피아드(IPhO) 문제에서 금메달 수준의 성능에 도달했습니다. 본 논문에서는 사후 학습된(post-trained) 추론 백본(backbone)을 엄격한 올림피아드 수준의 해결사(solver)로 변환하기 위한 단순하고 통합된 레시피를 소개합니다. 이 레시피는 먼저 엄격한 증명 탐색(proof-search) 및 자기 점검(self-checking) 행동을 주입하기 위해 SFT(Supervised Fine-Tuning)를 위한 역-퍼플렉시티 커리큘럼(reverse-perplexity curriculum)을 사용하며, 그다음 검증 가능한 보상(verifiable rewards)을 사용하는 RL(Reinforcement Learning)에서 더 정교한 증명 수준의 RL로 진행되는 2단계 RL 파이프라인을 통해 이러한 행동들을 스케일링(scaling)하고, 마지막으로 테스트 시간 스케일링(test-time scaling)을 통해 해결 성능을 높입니다. 이 레시피를 적용하여, 우리는 약 340K개의 8K 토큰 미만 궤적(trajectories)에 대한 SFT를 거친 후 200단계의 RL을 수행하여 30B-A3B 백본을 학습시켰습니다. 그 결과물인 SU-01 모델은 100K 토큰을 초과하는 궤적을 통해 어려운 문제에 대해 안정적인 추론을 지원하며, IMO 2025/USAMO 2026 및 IPhO 2024/2025를 포함한 수학 및 물리 올림피아드 대회에서 금메달 수준의 성능을 달성했습니다. 또한 수학과 물리를 넘어선 영역으로 과학적 추론의 강력한 일반화(generalization) 능력을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

단순하고 통합된 스케일링을 통한 올림피아드 수준의 금메달급 추론 달성

요약

핵심 포인트

댓글