arXiv논문2026. 05. 29. 11:28

HPO: 희소 보상 체제(Sparse-Reward Regime)에서 안정적이고 효율적인 학습을 위한 이력 현상 기반 정책 최적화

요약

희소 보상 환경에서 GRPO 방식의 강화학습이 겪는 불안정한 학습 문제를 해결하기 위한 HPO(Hysteretic Policy Optimization)를 제안합니다. 음의 이점 가중치를 조절하고 평균 길이 정규화를 도입하여 학습 효율을 높였으며, Adaptive HPO를 통해 자동화된 가중치 설정이 가능합니다.

핵심 포인트

희소 보상 체제에서 GRPO의 실패 모드 분석 및 해결책 제안
음의 이점 업데이트 가중치 감소 및 평균 길이 정규화 도입
배치 통계 기반의 Adaptive HPO로 자동 가중치 설정 구현
TeleLogs 및 Countdown 실험에서 GRPO 대비 성능 우위 입증

우리는 희소한 검증 가능한 보상(sparse verifiable rewards) 환경에서 GRPO 스타일의 강화학습 (Reinforcement Learning)이 겪는 좁지만 흔한 실패 모드를 조사합니다. 초기 업데이트 단계에서는 양의 이점 (positive advantages)을 가진 응답보다 음의 이점 (negative advantages)을 가진 응답이 더 많이 포함되는 반면, 응답 수준의 길이 정규화 (length normalization)는 업데이트의 크기를 출력 길이에 종속시킵니다. 우리는 음의 이점 업데이트의 가중치를 줄이고, 응답별 길이 정규화를 평균 길이 정규화 (mean-length normalization)로 대체하는 GRPO의 최소한의 수정 방식인 Hysteretic Policy Optimization (HPO)를 제안합니다. 나아가, 우리는 배치 수준의 이점 부호 통계 (batch-level advantage-sign statistics)를 기반으로 이력 가중치 (hysteretic weight)를 설정하여, 고정된 이력 가중치를 튜닝할 필요를 없앤 Adaptive HPO (A-HPO)를 도입합니다. TeleLogs 및 Countdown 실험에서 A-HPO는 GRPO와 비교하여 업데이트당 보상을 개선하였으며, 특히 초기 희소 보상 체제에서 가장 큰 이득을 보였습니다. TeleLogs에서 A-HPO는 응답 길이를 유사하게 유지하면서도 최종 보상 0.84를 달성하여, SAPO보다 5%, GSPO보다 11%, GRPO보다 15% 더 높은 성능을 기록했습니다. Countdown 실험에서 A-HPO는 1.5B-7B 모델 전반에 걸쳐 초기 및 가장 어려운 설정에서 가장 큰 성능 향상을 보였습니다. 이력 가중치에 대한 절제 연구 (Ablation studies) 결과, A-HPO의 이점은 양수 전용 (positive-only) 또는 완전 대칭 (fully symmetric) 업데이트와 비교했을 때 양의 이점과 음의 이점의 기여도를 더 잘 균형 있게 조절하는 데서 온다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

HPO: 희소 보상 체제(Sparse-Reward Regime)에서 안정적이고 효율적인 학습을 위한 이력 현상 기반 정책 최적화

요약

핵심 포인트

댓글