RREDCoT: 추론 모델을 위한 세그먼트 수준의 보상 재분배
요약
추론 언어 모델의 강화학습 과정에서 발생하는 지연된 보상 및 높은 분산 문제를 해결하기 위한 RREDCoT 방법론을 제안합니다. 추가적인 생성 없이 모델 자체를 활용하여 CoT 세그먼트에 최적의 보상을 재분배함으로써 신용 할당 문제를 개선합니다.
핵심 포인트
- CoT 기반 추론 모델의 지연된 보상 문제 해결
- GRPO의 높은 분산 문제를 신용 할당을 통해 완화
- 추가 생성 없이 모델 자체로 보상 재분배 근사
- MC 샘플링 대비 계산 오버헤드 감소 및 효율성 증대
최근 추론 언어 모델(Reasoning Language Models)의 발전은 강화학습 (Reinforcement Learning, RL) 미세 조정(Fine-tuning)에 의해 주도되어 왔습니다. 대부분의 경우, 이러한 모델들은 모델이 사고 사슬 (Chain-of-Thought, CoT) 흔적을 생성하도록 유도하기 위해 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 알고리즘 또는 그 변형을 사용합니다. 최종 정답은 CoT 흔적이 완료된 후에만 검증 및 보상 할당이 가능하므로, 이는 지연된 보상 (Delayed Reward) 문제로 귀결됩니다. GRPO 및 그 변형들은 표준 RL에서의 몬테카를로 (Monte Carlo) 방법론에 해당하며, 이는 높은 분산 (High Variance) 문제를 겪는 것으로 알려져 있습니다. 이 문제에 대한 가능한 해결책은 신용 할당 (Credit Assignment)을 통한 보상 재분배로, 바람직한 해답에 도달하는 데 중요한 CoT 흔적의 세그먼트(Segment)들에 더 높은 보상을 할당함으로써 강조하는 것입니다. 몬테카를로 샘플링 (Monte Carlo Sampling)을 사용하여 중간 상태 가치 (Intermediate State Values)에 대한 편향되지 않은 추정치를 제공할 수 있지만, 계산 오버헤드 (Computational Overhead)로 인해 긴 문맥(Long Context)에서 높은 정밀도로 학습 시간 중 신용 할당을 수행하기에는 부적합합니다. 본 논문에서는 추가적인 생성 없이 모델 자체를 활용하여 최적의 보상 재분배를 근사하는 RREDCoT (Reward REDistribution for Chain of Thoughts)를 소개합니다. 우리는 MC 샘플링 및 여러 귀속 방법론 (Attribution Methods)과 비교하여 우리 방법의 장점을 조사합니다. 나아가 CoT 흔적의 세그먼트 분할 및 상태 가치 추정 (State Value Estimation)과 같이 재분배 구축과 관련된 여러 측면을 분석합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기