본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:34

단순하고 통합된 스케일링을 통한 올림피아드 수준의 금메달급 추론 달성

요약

본 논문은 사후 학습된 추론 백본을 올림피아드 수준의 문제 해결사로 변환하는 단순하고 통합적인 레시피를 제시합니다. 이 방법론은 역-퍼플렉시티 커리큘럼을 사용한 SFT와 검증 가능한 보상을 활용하는 2단계 RL 파이프라인을 통해 증명 탐색 및 자기 점검 능력을 주입하며, 테스트 시간 스케일링으로 성능을 극대화합니다. 이 레시피를 적용한 SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달 수준의 추론 성능과 강력한 일반화 능력을 입증했습니다.

핵심 포인트

  • 올림피아드 수준의 문제 해결사로 변환하는 통합적인 방법론 제시
  • SFT 단계에서는 역-퍼플렉시티 커리큘럼을 사용하여 증명 탐색 및 자기 점검 행동 주입
  • 2단계 RL 파이프라인은 검증 가능한 보상을 활용하여 정교한 증명 수준의 능력을 스케일링함
  • 테스트 시간 스케일링을 통해 최종 해결 성능을 향상시킴
  • SU-01 모델은 수학 및 물리 올림피아드 대회에서 금메달급 성능과 강력한 일반화 능력을 보여줌

추론 모델(reasoning models)의 최근 발전은 장기적인 수학 및 과학 문제 해결 능력을 실질적으로 향상시켰으며, 현재 여러 시스템이 국제 수학 올림피아드(IMO) 및 국제 물리 올림피아드(IPhO) 문제에서 금메달 수준의 성능에 도달했습니다. 본 논문에서는 사후 학습된(post-trained) 추론 백본(backbone)을 엄격한 올림피아드 수준의 해결사(solver)로 변환하기 위한 단순하고 통합된 레시피를 소개합니다. 이 레시피는 먼저 엄격한 증명 탐색(proof-search) 및 자기 점검(self-checking) 행동을 주입하기 위해 SFT(Supervised Fine-Tuning)를 위한 역-퍼플렉시티 커리큘럼(reverse-perplexity curriculum)을 사용하며, 그다음 검증 가능한 보상(verifiable rewards)을 사용하는 RL(Reinforcement Learning)에서 더 정교한 증명 수준의 RL로 진행되는 2단계 RL 파이프라인을 통해 이러한 행동들을 스케일링(scaling)하고, 마지막으로 테스트 시간 스케일링(test-time scaling)을 통해 해결 성능을 높입니다. 이 레시피를 적용하여, 우리는 약 340K개의 8K 토큰 미만 궤적(trajectories)에 대한 SFT를 거친 후 200단계의 RL을 수행하여 30B-A3B 백본을 학습시켰습니다. 그 결과물인 SU-01 모델은 100K 토큰을 초과하는 궤적을 통해 어려운 문제에 대해 안정적인 추론을 지원하며, IMO 2025/USAMO 2026 및 IPhO 2024/2025를 포함한 수학 및 물리 올림피아드 대회에서 금메달 수준의 성능을 달성했습니다. 또한 수학과 물리를 넘어선 영역으로 과학적 추론의 강력한 일반화(generalization) 능력을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0