HN요약2026. 04. 28. 22:06

rStar-Math: 자기진화 심층 사고를 통해 작은 LLM이 수학 추론을 마스터할 수 있다

요약

rStar-Math는 지식 증류(distillation) 없이도 OpenAI o1에 필적하거나 능가하는 수준의 수학 추론 능력을 작은 언어 모델(SLM)에 부여하는 새로운 프레임워크입니다. 이 방법은 Monte Carlo Tree Search (MCTS)를 활용한 '심층 사고' 과정을 통해 테스트 시뮬레이션 기반으로 작동하며, 세 가지 혁신적인 요소를 도입했습니다. 특히, 합성된 추론 궤적 생성, 프로세스 보상 모델(PPM)을 통한 개선된 학습 방법, 그리고 정책 SLM과 PPM을 반복적으로 진화시키는 자기진화 레시피를 통해 수학 문제 해결 능력을 크게 향상시켰습니다.

핵심 포인트

rStar-Math는 지식 증류 없이도 작은 LLM의 수학 추론 능력을 극대화하는 프레임워크입니다.
핵심 메커니즘은 MCTS 기반의 '심층 사고'를 테스트 시뮬레이션 과정에서 수행하여 복잡한 문제 해결 경로를 탐색합니다.
세 가지 혁신 요소는 (1) 합성된 추론 궤적 생성, (2) 프로세스 보상 모델(PPM)을 이용한 학습, (3) 정책 SLM과 PPM의 반복적인 자기진화 레시피입니다.
MATH 벤치마크에서 Qwen2.5-Math-7B와 Phi3-mini-3.8B 등의 성능을 크게 향상시켜 최첨단 수준에 도달했음을 입증했습니다.

rStar-Math: 자기진화 심층 사고를 통해 작은 LLM이 수학 추론을 마스터할 수 있다

Abstract

우리는 distillation(지식 증류) 없이도 OpenAI o1 의 수학 추론 능력을 견주거나 능가할 수 있음을 보여주는 rStar-Math 를 제시합니다. rStar-Math 는 SLM 기반 프로세스 보상 모델 (process reward model) 에 의해 가이드되는 테스트-타임 시뮬레이션 (test-time search) 을 통해 Monte Carlo Tree Search (MCTS) 라는 "심층 사고" (deep thinking) 를 수행함으로써 이 목표를 달성합니다. 두 개의 SLM 을 훈련하는 데 따른 과제를 해결하기 위해 rStar-Math 는 세 가지 혁신을 도입했습니다: (1) 광범위한 MCTS 롤아웃 (rollouts) 을 수행하여 정책 SLM 을 훈련하는 데 사용할 단계별 검증된 추론 궤적 (reasoning trajectories) 을 생성하는 새로운 코드 증강 CoT 데이터 합성 방법; (2) 단순한 단계별 점수 주석을 피하고 더 효과적인 프로세스 선호도 모델 (PPM) 을 도출하는 새로운 프로세스 보상 모델 훈련 방법; (3) 정책 SLM 과 PPM 을 처음부터 구축하여 추론 능력을 개선하기 위해 반복적으로 진화시키는 자기진화 레시피입니다. 747k 개의 수학 문제에 대해 수백만 개의 합성 솔루션을 통해 4 라운드의 자기진화를 거친 결과, rStar-Math 는 SLM 의 수학 추론 능력을 최첨단 수준으로 끌어올렸습니다. MATH 벤치마크에서 Qwen2.5-Math-7B 를 58.8% 에서 90.0% 로, Phi3-mini-3.8B 를 41.4% 에서 86.4% 로 향상시켜 o1-preview 보다 각각 +4.5%, +0.9% 더 높은 성능을 보였습니다. USA Math Olympiad (AIME) 에서는 평균 53.3% (15 문제 중 8 개) 의 문제를 해결하여 가장 밝은 고등학생 수학생 상위 20% 에 랭킹되었습니다. 코드와 데이터는 이 https URL 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

rStar-Math: 자기진화 심층 사고를 통해 작은 LLM이 수학 추론을 마스터할 수 있다

요약

핵심 포인트

rStar-Math: 자기진화 심층 사고를 통해 작은 LLM이 수학 추론을 마스터할 수 있다

Abstract

댓글