arXiv논문2026. 05. 15. 16:26

실패로부터 배우기: 검증 가능한 보상 (Verifiable Rewards)을 활용한 교정 지향적 정책 최적화

요약

본 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위해 검증 가능한 보상(RLVR)을 활용한 강화학습 패러다임을 다룹니다. 기존 RLVR 학습이 겪는 희소한 이진 보상 및 약한 신용 할당 문제를 해결하기 위해, 외부 신호에 의존하지 않고 온-정책 실패 궤적을 교정 지향적 감독으로 변환하는 '교정 지향적 정책 최적화(CIPO)'를 제안합니다. CIPO는 모델의 실패 시도에서 얻은 교정 샘플을 표준 RLVR 목적 함수와 공동 최적화하여, 학습 효율성을 높이고 모델이 스스로 오류를 수정하는 능력을 강화하며, 수학적 추론 및 코드 생성 등 다양한 벤치마크에서 우수한 성능을 입증했습니다.

핵심 포인트

CIPO(Correction-Oriented Policy Optimization)는 LLM의 추론 능력 향상을 위한 새로운 RLVR 확장 방식이다.
기존 RLVR 학습의 문제점인 희소한 보상 및 약한 신용 할당 문제를 해결한다.
외부 신호 없이 온-정책 실패 궤적을 교정 지향적 감독으로 활용하여 모델의 자체 오류 수정 능력을 강화한다.
CIPO는 수학적 추론과 코드 생성 등 광범위한 벤치마크에서 기존 베이스라인보다 일관되고 유의미하게 높은 성능을 보인다.

검증 가능한 보상 (Verifiable Rewards, RLVR)을 활용한 강화학습 (Reinforcement Learning)은 대규모 언어 모델 (Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 효과적인 패러다임으로 부상했습니다. 그러나 RLVR 학습은 종종 희소한 이진 보상 (Sparse Binary Rewards)과 약한 신용 할당 (Weak Credit Assignment) 문제로 인해 방해를 받으며, 이는 모호한 최적화 신호와 실패한 궤적 (Failed Trajectories)에 내재된 유용한 정보의 활용 저하를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 외부 신호에 의존하지 않고 온-정책 (On-policy) 실패 궤적을 교정 지향적 감독 (Correction-oriented Supervision)으로 변환하는 RLVR의 단순하고 효과적인 확장 방식인 교정 지향적 정책 최적화 (Correction-Oriented Policy Optimization, CIPO)를 제안합니다. 모델 자체의 실패한 시도에서 도출된 교정 샘플 (Correction Samples)을 표준 RLVR 목적 함수와 함께 공동으로 최적화함으로써, CIPO는 학습 효율성을 개선하는 동시에 모델이 스스로의 오류를 수정하는 능력을 명시적으로 강화합니다. 수학적 추론 (Mathematical Reasoning)과 코드 생성 (Code Generation)을 아우르는 11개의 벤치마크에 걸친 광범위한 실험을 통해, CIPO가 추론 및 교정 성능 모두에서 강력한 베이스라인 (Baselines)들을 일관되고 유의미하게 능가함을 입증했습니다. 또한, CIPO는 더 강력한 pass@K 이득을 창출하며, 이는 모델이 단순히 기존의 정답에 대한 확률 질량 (Probability Mass)을 재분배하는 것이 아니라 모델의 내재적인 추론 역량을 향상시킨다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

실패로부터 배우기: 검증 가능한 보상 (Verifiable Rewards)을 활용한 교정 지향적 정책 최적화

요약

핵심 포인트

댓글