arXiv논문2026. 05. 29. 12:55

강건한 루브릭 보상을 활용한 강화학습 (Reinforcement Learning with Robust Rubric Rewards)

요약

시각-언어 작업의 세밀한 감독을 위해 제안된 $RLR^3$ 방법론을 소개합니다. 결정론적 검증기와 LLM-as-a-Judge를 결합하여 루브릭 기반의 강건한 보상을 제공하며, 기존 RLVR 대비 우수한 성능을 입증했습니다.

핵심 포인트

루브릭 기반의 다중 기준 감독을 통한 강화학습 확장
LLM-as-an-extractor와 LLM-as-a-Judge의 이중 경로 라우팅
최소 노출 전략을 통한 판사의 충실한 점수 산정 보장
계층적 집계를 통한 필수 기준 우선순위 부여 및 점수 포화 완화
Qwen3-VL 모델 기준 베이스 대비 4.7포인트 성능 향상

검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 결정론적으로 확인 가능한 작업에는 효과적이지만, 많은 시각-언어 (vision-language) 작업은 부분적으로만 검증 가능하여 다중 기준 감독 (multi-criteria supervision, 예: 지각적 세부 사항, 추론 단계 및 제약 조건)을 요구합니다. 루브릭 (Rubrics)은 이러한 세밀한 감독을 위한 자연스러운 인터페이스를 제공하지만, 그 효과는 온라인 강화학습 (RL) 중의 실행 정확도에 달려 있습니다. 우리는 RLVR을 작업 수준의 검증에서 기준 수준의 검증으로 확장한 강건한 루브릭 보상을 활용한 강화학습 ($ ext{RLR}^3$, Reinforcement Learning with Robust Rubric Rewards)을 제안합니다. $ ext{RLR}^3$는 인스턴스별 루브릭을 두 가지 실행 경로로 라우팅합니다: 결정론적 검증기 (deterministic verifier)와 결합된 추출기로서의 LLM (LLM-as-an-extractor), 또는 검증 불가능한 기준을 위한 판사로서의 LLM (LLM-as-a-Judge)입니다. 충실한 점수 산정을 보장하기 위해, $ ext{RLR}^3$는 추출기에게는 정답 (ground truths)을, 판사에게는 이미지를 마스킹하는 최소 노출 전략 (minimal exposure strategy)을 도입합니다. 또한, $ ext{RLR}^3$는 계층적 집계 (hierarchical aggregation)를 사용하여 추가적인 기준보다 필수적인 기준에 우선순위를 두며, 롤아웃 그룹 (rollout groups) 내에서의 점수 포화 (score saturation)를 완화합니다. 15개 벤치마크에 대해 Qwen3-VL-30B-A3B로 평가한 결과, $ ext{RLR}^3$는 RLVR보다 일관되게 우수한 성능을 보였으며, 베이스 모델 대비 4.7포인트의 향상을 기록하여 공식적인 instruct-to-thinking 모델 간의 격차를 넘어섰습니다. 통제된 감사 (Controlled audits)를 통해 우리의 결정론적 검증과 최소 노출 전략이 악용 가능한 거짓 양성 (false positives)을 유의미하게 감소시킴을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

강건한 루브릭 보상을 활용한 강화학습 (Reinforcement Learning with Robust Rubric Rewards)

요약

핵심 포인트

댓글