arXiv논문2026. 06. 05. 13:45

RREDCoT: 추론 모델을 위한 세그먼트 수준의 보상 재분배

요약

추론 언어 모델의 강화학습 과정에서 발생하는 지연된 보상 및 높은 분산 문제를 해결하기 위한 RREDCoT 방법론을 제안합니다. 추가적인 생성 없이 모델 자체를 활용하여 CoT 세그먼트에 최적의 보상을 재분배함으로써 신용 할당 문제를 개선합니다.

핵심 포인트

CoT 기반 추론 모델의 지연된 보상 문제 해결
GRPO의 높은 분산 문제를 신용 할당을 통해 완화
추가 생성 없이 모델 자체로 보상 재분배 근사
MC 샘플링 대비 계산 오버헤드 감소 및 효율성 증대

최근 추론 언어 모델(Reasoning Language Models)의 발전은 강화학습 (Reinforcement Learning, RL) 미세 조정(Fine-tuning)에 의해 주도되어 왔습니다. 대부분의 경우, 이러한 모델들은 모델이 사고 사슬 (Chain-of-Thought, CoT) 흔적을 생성하도록 유도하기 위해 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 알고리즘 또는 그 변형을 사용합니다. 최종 정답은 CoT 흔적이 완료된 후에만 검증 및 보상 할당이 가능하므로, 이는 지연된 보상 (Delayed Reward) 문제로 귀결됩니다. GRPO 및 그 변형들은 표준 RL에서의 몬테카를로 (Monte Carlo) 방법론에 해당하며, 이는 높은 분산 (High Variance) 문제를 겪는 것으로 알려져 있습니다. 이 문제에 대한 가능한 해결책은 신용 할당 (Credit Assignment)을 통한 보상 재분배로, 바람직한 해답에 도달하는 데 중요한 CoT 흔적의 세그먼트(Segment)들에 더 높은 보상을 할당함으로써 강조하는 것입니다. 몬테카를로 샘플링 (Monte Carlo Sampling)을 사용하여 중간 상태 가치 (Intermediate State Values)에 대한 편향되지 않은 추정치를 제공할 수 있지만, 계산 오버헤드 (Computational Overhead)로 인해 긴 문맥(Long Context)에서 높은 정밀도로 학습 시간 중 신용 할당을 수행하기에는 부적합합니다. 본 논문에서는 추가적인 생성 없이 모델 자체를 활용하여 최적의 보상 재분배를 근사하는 RREDCoT (Reward REDistribution for Chain of Thoughts)를 소개합니다. 우리는 MC 샘플링 및 여러 귀속 방법론 (Attribution Methods)과 비교하여 우리 방법의 장점을 조사합니다. 나아가 CoT 흔적의 세그먼트 분할 및 상태 가치 추정 (State Value Estimation)과 같이 재분배 구축과 관련된 여러 측면을 분석합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RREDCoT: 추론 모델을 위한 세그먼트 수준의 보상 재분배

요약

핵심 포인트

댓글