arXiv논문2026. 06. 01. 11:32

RLHF의 이면: 보상 모델의 자기 지도 개선을 위한 온폴리시 (On-Policy) 피드백

요약

언어 모델 정렬 시 발생하는 데이터 확보 병목 현상을 해결하기 위해, 가치 함수를 활용한 온폴리시 RM 학습 프레임워크인 SAVE를 제안합니다. SAVE는 적응형 앵커를 통해 온폴리시 응답을 지도 학습 데이터로 변환하여 보상 모델의 성능을 효과적으로 개선합니다.

핵심 포인트

데이터 확보 비용 문제를 해결하는 SAVE 프레임워크 제안
가치 함수를 활용한 온폴리시 피드백 기반의 RM 개선
적응형 앵커를 통한 온폴리시 응답의 지도 학습 데이터화
다양한 RL 알고리즘 및 정책 백본에서 성능 검증 완료

언어 모델 정렬 (Alignment)을 위한 강력한 보상 모델 (Reward Models, RMs)을 구축하는 과정은 인간 주석 (Human Annotation) 또는 판사 모델 (Judge Models)으로부터 다양하고 신뢰할 수 있는 선호도 데이터를 획득하는 비용과 어려움으로 인해 병목 현상을 겪고 있습니다. 정책 (Policy)이 정적인 RM 학습 단계를 넘어 진화함에 따라 이러한 문제는 더욱 극심해집니다. 이에 따라, 우리는 가치 함수 (Value Function)를 사용하여 온폴리시 (On-policy) RM 학습을 위한 피드백으로 온폴리시 응답을 등급화하는 프레임워크인 SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback)를 제안합니다. SAVE는 적응형 앵커 (Adaptive Anchor)로서 프롬프트별 가치 헤드 (Prompt-specific Value Head)를 사용하여, 보상 등급이 매겨진 온폴리시 응답을 자연스럽게 지도 학습 (Supervision) 데이터로 변환합니다. 이 방식은 RM 어드밴티지 (RM Advantages)를 계산하고 모호한 샘플을 필터링하여 대조 목적 함수 (Contrastive Objective)를 통해 RM을 업데이트합니다. RM 학습을 강화하는 SAVE의 효과는 6개의 다양한 벤치마크에 걸친 엄격한 실증적 평가를 통해 강력하게 검증되었습니다. SAVE는 세 가지 강화학습 (RL) 알고리즘 (GRPO, RLOO, GSPO) 및 서로 다른 정책 백본 (Policy Backbones) 전반에서 일관된 개선을 유지하면서 모든 데이터셋에서 뛰어난 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RLHF의 이면: 보상 모델의 자기 지도 개선을 위한 온폴리시 (On-Policy) 피드백

요약

핵심 포인트

댓글