강건한 루브릭 보상을 활용한 강화학습 (Reinforcement Learning with Robust Rubric Rewards)
요약
시각-언어 작업의 세밀한 감독을 위해 제안된 $RLR^3$ 방법론을 소개합니다. 결정론적 검증기와 LLM-as-a-Judge를 결합하여 루브릭 기반의 강건한 보상을 제공하며, 기존 RLVR 대비 우수한 성능을 입증했습니다.
핵심 포인트
- 루브릭 기반의 다중 기준 감독을 통한 강화학습 확장
- LLM-as-an-extractor와 LLM-as-a-Judge의 이중 경로 라우팅
- 최소 노출 전략을 통한 판사의 충실한 점수 산정 보장
- 계층적 집계를 통한 필수 기준 우선순위 부여 및 점수 포화 완화
- Qwen3-VL 모델 기준 베이스 대비 4.7포인트 성능 향상
검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 결정론적으로 확인 가능한 작업에는 효과적이지만, 많은 시각-언어 (vision-language) 작업은 부분적으로만 검증 가능하여 다중 기준 감독 (multi-criteria supervision, 예: 지각적 세부 사항, 추론 단계 및 제약 조건)을 요구합니다. 루브릭 (Rubrics)은 이러한 세밀한 감독을 위한 자연스러운 인터페이스를 제공하지만, 그 효과는 온라인 강화학습 (RL) 중의 실행 정확도에 달려 있습니다. 우리는 RLVR을 작업 수준의 검증에서 기준 수준의 검증으로 확장한 강건한 루브릭 보상을 활용한 강화학습 ($ ext{RLR}^3$, Reinforcement Learning with Robust Rubric Rewards)을 제안합니다. $ ext{RLR}^3$는 인스턴스별 루브릭을 두 가지 실행 경로로 라우팅합니다: 결정론적 검증기 (deterministic verifier)와 결합된 추출기로서의 LLM (LLM-as-an-extractor), 또는 검증 불가능한 기준을 위한 판사로서의 LLM (LLM-as-a-Judge)입니다. 충실한 점수 산정을 보장하기 위해, $ ext{RLR}^3$는 추출기에게는 정답 (ground truths)을, 판사에게는 이미지를 마스킹하는 최소 노출 전략 (minimal exposure strategy)을 도입합니다. 또한, $ ext{RLR}^3$는 계층적 집계 (hierarchical aggregation)를 사용하여 추가적인 기준보다 필수적인 기준에 우선순위를 두며, 롤아웃 그룹 (rollout groups) 내에서의 점수 포화 (score saturation)를 완화합니다. 15개 벤치마크에 대해 Qwen3-VL-30B-A3B로 평가한 결과, $ ext{RLR}^3$는 RLVR보다 일관되게 우수한 성능을 보였으며, 베이스 모델 대비 4.7포인트의 향상을 기록하여 공식적인 instruct-to-thinking 모델 간의 격차를 넘어섰습니다. 통제된 감사 (Controlled audits)를 통해 우리의 결정론적 검증과 최소 노출 전략이 악용 가능한 거짓 양성 (false positives)을 유의미하게 감소시킴을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기