EchoRL: Rollout Echoing을 통한 강화학습 (Reinforcement Learning)
요약
EchoRL은 강화학습 과정에서 발생하는 이득 퇴화(advantage-degeneration) 문제를 해결하기 위한 새로운 방법론을 제안합니다. 검증된 성공 롤아웃에서 유의미한 학습 신호를 추출하는 EchoClip 모듈을 통해 LLM의 추론 능력을 효율적으로 향상시킵니다.
핵심 포인트
- RLVR 학습 중 발생하는 이득 퇴화 및 정책 경사 소멸 문제 해결
- 단계별 엔트로피 기반의 EchoClip 모듈을 통한 보조 감독 신호 활용
- 최소한의 오버헤드로 다양한 LLM 백본 및 RLVR 방법론에서 성능 개선 입증
검증 가능한 보상 (Verifiable Rewards)을 활용한 강화학습 (Reinforcement Learning)은 대규모 언어 모델 (LLM)의 추론 능력을 강화하기 위한 사후 학습 (post-training)의 효과적인 경로입니다. 그러나 학습이 진행됨에 따라 학습 신호가 붕괴될 수 있으며, 이로 인해 학습 이득이 미미해지고 비효율적이게 됩니다. 구체적으로, 프롬프트의 롤아웃 (rollouts) 중 점점 더 많은 비율이 이득 퇴화 (advantage-degenerated) 상태가 됩니다. 즉, 모든 자기 생성 롤아웃이 검증된 성공 (verified-success)을 보여줌으로써 보상의 표준 편차가 0이 되며, 이에 따라 각 롤아웃의 이득 (advantage) 또한 퇴화(0이 됨)하게 됩니다. 이러한 롤아웃의 이득으로 인해 모델 최적화를 위한 정책 경사 (policy-gradient)가 결국 소멸하며, 이는 학습 성능의 한계를 초래합니다. 우리는 이러한 롤아웃 중 일부가 여전히 가치 있는 학습 신호를 포함하고 있음에도 불구하고, 기존의 RLVR 방법론에서는 불행히도 누락되고 있다고 주장합니다. 본 논문에서는 외부 전문가 모델에 의해 생성된 골든 궤적 (golden trajectories) 뒤에 숨겨진 엔트로피 패턴 (entropy pattern) 분석에서 영감을 얻어, 이득 퇴화된 롤아웃을 더 잘 활용하여 학습 성능을 더욱 향상시키기 위한 EchoRL을 제안합니다. EchoRL은 먼저 단계별 엔트로피 (step-level entropy) 값을 기반으로 검증된 성공 롤아웃으로부터 에코 클립 (EchoClip)을 식별한 다음, 이 클립을 RL 목적 함수 (RL objective) 내의 보조 감독 신호 (auxiliary supervision signal)로 다시 피드백하는 경량 모듈입니다. 10개의 벤치마크, 5개의 LLM 백본 (backbones), 그리고 4개의 대중적인 RLVR 사후 학습 방법을 통한 광범위한 실험 결과, EchoRL이 최소한의 오버헤드로 RLVR 사후 학습을 일관되게 개선함을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기