arXiv논문2026. 06. 09. 10:45

ConSteer-RL: 신뢰도 인식 강화학습 (Confidence-Aware Reinforcement Learning)을 통한 대규모 언어

요약

ConSteer-RL은 LLM의 추론 능력을 높이기 위해 모델의 토큰별 신뢰도 신호를 강화학습에 통합하는 프레임워크입니다. GRPO를 기반으로 과도한 확신을 방지하고 정확한 추론을 강화하여 기존 RLVR 방식의 한계를 극복합니다.

핵심 포인트

토큰 수준의 신뢰도 신호를 RLVR 학습에 통합
GRPO 프레임워크 기반의 인식 기반 보상 형성 메커니즘 제안
과도하게 확신하는 오류에 대한 패널티 부여
다양한 모델 규모에서 평균 2.3%~4.0% 성능 향상 달성

검증 가능한 보상을 통한 강화학습 (Reinforcement Learning from Verifiable Rewards, RLVR)은 최근 대규모 언어 모델 (Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 핵심 패러다임이 되었으나, 희소한 이진 보상 (sparse binary rewards) 문제와 모델 내부의 불확실성 (model-internal uncertainty)을 무시한다는 한계가 있습니다. 본 논문에서는 모델의 로그 확률 (log-probabilities)에서 도출된 토큰 수준의 신뢰도 신호를 RLVR 학습에 통합하는 단순하면서도 효과적인 프레임워크인 ConSteer-RL을 제안합니다. 구체적으로, 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 프레임워크를 기반으로, 토큰별 확률을 스칼라 신뢰도 점수로 집계하고 이를 인식 기반 보상 형성 (awareness-based reward shaping) 메커니즘에 통합하여 신뢰도 인식 보상을 구축합니다. 이 메커니즘은 과도하게 확신하는 오류 (overconfident errors)에는 패널티를 부여하는 동시에, 정확하고 확신 있는 추론은 강화합니다. 실험 결과, ConSteer-RL은 강력한 GRPO 베이스라인들을 지속적으로 능가하며, 다양한 모델 규모에 걸쳐 평균 2.3%~4.0%의 성능 향상을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ConSteer-RL: 신뢰도 인식 강화학습 (Confidence-Aware Reinforcement Learning)을 통한 대규모 언어

요약

핵심 포인트

댓글