모든 루브릭이 동일하게 가르치는 것은 아니다: RLVR을 위한 정책 인식 루브릭 보상 (Policy-Aware Rubric Rewards)
요약
강화학습(RL)에서 루브릭 기반 보상을 사용할 때, 인간이 부여한 기준의 중요도와 학습에 유용한 신호가 일치하지 않는 문제를 해결하기 위한 POW3R 프레임워크를 제안합니다. POW3R은 정책의 현재 상태에 따라 기준별 보상 가중치를 동적으로 조정하여, 롤아웃을 효과적으로 구분할 수 있는 기준에 집중함으로써 학습 효율을 극대화합니다. 실험 결과, 기존 GRPO 방식보다 훨씬 적은 학습 단계만으로도 더 높은 평균 보상과 완결성을 달old했습니다.
핵심 포인트
- 기존 루브릭 기반 보상은 인간의 가중치와 최적화 신호로서의 유용성을 혼동하는 문제가 있음
- POW3R은 롤아웃 수준의 대조를 통해 현재 정책의 출력을 구분하는 핵심 기준을 강조함
- 멀티모달 및 텍스트 데이터셋 실험에서 30개 비교 중 24개 지표에서 우수한 성능을 입증함
- 바닐라 GRPO 대비 2.5~4배 적은 학습 단계로 동일한 성능 정체기에 도달 가능함
검증 가능한 보상 (verifiable rewards)을 사용하는 강화학습 (Reinforcement Learning, RL)은 정답 여부를 자동으로 확인할 수 있을 때 사후 학습 (post-training)을 매우 효과적으로 만들어 왔습니다. 그러나 많은 중요한 모델 동작들은 한 번에 여러 가지 질적 기준 (qualitative criteria)을 충족해야 합니다. 루브릭 기반 보상 (Rubric-based rewards)은 프롬프트별 기준을 채점하고 이를 스칼라 보상 (scalar reward)으로 집계함으로써 이러한 설정을 다룹니다. 하지만 표준적인 정적 집계 방식은 기준에 대해 인간이 부여한 중요도와 최적화 신호로서의 현재 유용성을 혼동합니다. 우리는 루브릭 RL에서 이러한 가정이 무너진다는 것을 보여줍니다. 즉, 많은 중요한 기준들은 이미 포화 상태이거나 현재 도달 불가능한 반면, 롤아웃 (rollouts)을 구분 짓는 기준이 반드시 인간이 부여한 가중치가 가장 큰 기준인 것은 아닙니다. 우리는 루브릭 목표로서 인간의 가중치와 카테고리 균형을 유지하면서, 학습 과정 동안 기준 수준의 보상 가중치를 조정하는 정책 인식 루브릭 보상 프레임워크인 POW3R을 소개합니다. POW3R은 롤아웃 수준의 대조 (rollout-level contrast)를 사용하여 현재 정책의 출력을 구분하는 기준을 강조하며, 이를 통해 근본적인 평가 대상을 변경하지 않고도 GRPO 보상을 더 유익하게 만듭니다. 멀티모달 (multimodal) 및 텍스트 전용 (text-only) 설정을 아우르는 두 개의 데이터셋에서 세 가지 기본 정책을 대상으로 실험한 결과, POW3R은 30개의 기본 정책/지표 비교 중 24개에서 승리했습니다. 또한 루브릭 보상을 사용하는 바닐라 (vanilla) GRPO에 비해 평균 루브릭 보상과 엄격한 완결성 (strict completion, 응답이 요구되는 모든 루브릭 기준을 충족하는 프롬프트의 비율)을 모두 개선했으며, 2.5~4배 적은 학습 단계만으로 동일한 정체기 (plateau)에 도달했습니다. 따라서 루브릭 보상은 최종 답변에서 무엇이 중요한지와 현재 정책을 학습시킬 수 있는 것이 무엇지를 구분해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기