선택하고 개선하기: 추론을 위한 사후 훈련의 메커니즘 이해
요약
본 연구는 강화학습(RL) 사후 훈련이 추론 및 코딩 모델의 능력 향상에 기여하는 메커니즘을 분석했습니다. Qwen-2.5-1.5B를 활용한 수학 추론 실험 결과, 능력이 습득되는 핵심 과정으로 '전략 선택'과 '전략 개선' 두 가지 메커니즘을 밝혀냈습니다.
핵심 포인트
- RL 사후 훈련의 작동 원리에 대한 기계적 이해를 제공합니다.
- 모델에 다양한 추론 전략 지도가 '전략 선택'을 가능하게 합니다.
- 강화학습 데이터 난이도 증가는 '전략 개선' 메커니즘을 활성화합니다.
강화학습(Reinforcement learning)은 추론 및 코딩 모델 훈련의 핵심 구성 요소로 빠르게 부상했지만, 기계적 관점에서는 여전히 이해가 부족합니다. 우리는 강화학습 사후 훈련을 통해 능력이 어떻게 또는 어떤 근본적인 과정을 거쳐 습득되거나 향상되는지 연구했습니다. Qwen-2.5-1.5B를 사용한 통제된 수학 추론 실험을 기반으로 한 우리의 분석은 두 가지 핵심 메커니즘, 즉 전략 선택(strategy selection)과 전략 개선(strategy improvement)을 밝혀냅니다. 우리의 결과는 SFT 데이터와 강화학습 데이터가 이러한 메커니즘 활성화에 미치는 역할을 강조하며, 특히 모델을 다양한 추론 전략으로 지도하는 것이 어떻게 전략 선택을 가능하게 하는지, 그리고 강화학습 데이터의 난이도를 높이는 것이 어떻게 전략 개선을 가능하게 하는지를 보여줍니다. 종합적으로 볼 때, 우리의 결과는 RL 훈련에 대한 메커니즘적 통찰력을 제공하며, 추론 능력을 계속 확장하기 위한 실질적인 개입 방안을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기