RL로 학습된 추론 모델의 과도한 사고(Overthinking)를 줄이기 위한 동적 롤아웃 편집(Dynamic Rollout Editing)
요약
RL 기반 추론 모델이 정답 도출 후에도 불필요한 사고를 지속하는 'Overthinking' 현상을 분석하고, 이를 해결하기 위한 Dynamic Rollout Editing(DRE) 기법을 제안합니다. DRE는 학습 과정에서 성공적인 궤적 내 불필요한 추론 부분을 편집하여 모델이 효율적인 사고 과정을 학습하도록 유도합니다.
핵심 포인트
- RL 학습 시 정답 도출 후에도 사고가 지속되는 Overthinking 문제 정의
- GRPO의 시퀀스 수준 신용 할당이 과도한 사고를 심화시키는 원인 분석
- Dynamic Rollout Editing(DRE)을 통한 학습 시간 내 개입 방식 제안
- 검증된 접두사는 보존하고 불필요한 사고 과정은 편집하여 선호 신호 조절
- 다양한 작업 실험을 통해 DRE의 효과 및 효율적 추론 능력 입증
긴 형태의 사고 사슬 (Chain-of-thought) 추론은 복잡한 작업에서 LLM의 성능을 향상시킬 수 있지만, 모델은 종종 정답이 도출된 이후에도 불필요한 추론을 계속 생성하곤 합니다. 우리는 이러한 동작을 과도한 사고 (overthinking)라고 부릅니다. 우리는 이 현상을 단순히 디코딩 시간 (decoding-time)의 중단 문제라기보다, 학습 시간 (training-time)의 신용 할당 (credit-assignment) 문제로 프레임화하여 GRPO 스타일의 강화학습 (RL) 사후 학습 (post-training) 관점에서 연구합니다. GRPO 학습 시작 시점에 샘플링된 롤아웃 (rollouts)에서, 우리는 성공적인 궤적 (trajectories)이 동일한 프롬프트에 대한 실패한 궤적보다 약간 더 높은 수준의 과도한 사고를 보일 수 있음을 관찰했습니다. 이러한 초기 불균형은 바람직하지 않은 피드백 루프의 시작점이 됩니다. GRPO는 시퀀스 수준의 신용 (sequence-level credit)을 할당하기 때문에, 정답에 도달한 접두사 (prefix)와 성공적인 궤적을 길게 만드는 불필요한 연속 부분을 구분할 수 없습니다. 두 부분 모두 양의 업데이트 신호를 받게 되어, 초기 불균형이 학습 과정 동안 더 심각한 과도한 사고로 성장하게 됩니다. 이 문제를 해결하기 위해, 우리는 정답 도출 이후에도 사고를 계속하는 성공적인 궤적에 대한 학습 시간 개입 방식인 동적 롤아웃 편집 (Dynamic Rollout Editing, DRE)을 도입합니다. DRE는 검증된 접두사를 보존하고, 남은 사고 과정을 편집하며, 동일한 RL 그룹 내에서 편집된 궤적을 선호하도록 하여, 정답에 도달하는 데 필요한 추론에는 불이익을 주지 않으면서 불필요한 사고에 대한 선호 신호를 약화시킵니다. 다양한 작업에 걸친 실험을 통해 DRE의 효과를 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기