arXiv논문2026. 06. 03. 11:30

QUBRIC: 검증 가능한 보상을 넘어선 RL을 위한 쿼리 및 루브릭 공동 설계

요약

QUBRIC은 쿼리와 루브릭을 공동 설계하여 강화학습의 성능을 높이는 새로운 프레임워크를 제안합니다. 기존 방식의 구조적 병목을 해결하기 위해 시나리오 기반 질문 재작성과 대조적 루브릭 생성을 활용하며, ArenaHard 벤치마크에서 유의미한 성능 향상을 입증했습니다.

핵심 포인트

쿼리와 루브릭의 공동 설계를 통한 RL 성능 최적화
개방형 쿼리를 평가 가능한 시나리오 기반 질문으로 재작성
학습 가능성 필터링을 통해 GRPO 학습 효율 극대화
ArenaHard 및 다양한 벤치마크에서 성능 향상 확인

루브릭 기반 강화학습 (Rubric-based RL)은 검증 가능한 보상 (verifiable rewards)을 넘어 강화학습을 확장할 수 있는 유망한 경로이지만, 기존 방법들은 쿼리 분포 (query distribution)를 고정된 것으로 취급하면서 루브릭 (rubrics)만을 최적화합니다. 우리는 구조적 병목 현상을 확인했습니다: 루브릭의 품질은 쿼리 구조 (query structure)에 의해 제약됩니다. 개방형 쿼리 (Open-ended queries)는 모호한 루브릭을 생성하며, 이를 단순히 좁히는 방식은 어떤 모델도 검증할 수 없는 조작된 참조 (fabricated references)를 도입하여 모든 응답이 실패하고 학습이 보상 신호를 받지 못하게 만듭니다. 우리는 쿼리와 루브릭을 공동 설계하는 프레임워크인 QUBRIC을 제시합니다. 교사 (Teacher)로부터 도출된 핵심 포인트 (key points)는 개방형 쿼리를 시나리오 기반의 평가 가능한 질문으로 재작성하는 근거가 됩니다. 이어서 대조적 루브릭 생성 (Contrastive rubric generation)을 통해 교사-정책 (teacher-policy) 간의 격차를 쿼리 수준의 기준 (criteria)으로 전환하며, 학습 가능성 필터링 (learnability filtering)을 통해 정보가 풍부한 쿼리-루브릭 쌍만을 GRPO 학습을 위해 유지합니다. QUBRIC은 SFT 베이스라인 대비 ArenaHard에서 +5.5 포인트의 이득을 달성했습니다. 지시 이행 (instruction-following) 데이터로만 학습되었음에도 불구하고, 법률, 도덕 및 서사적 추론을 아우르는 세 가지 홀드아웃 벤치마크로 추가 전이되었으며 (평균 +6.3 포인트), 개선 사항은 추론 관련 차원에 집중되었습니다. 이러한 결과는 쿼리와 루브릭을 공동 설계하는 것이 루브릭 기반 RL을 엄격하게 검증 가능한 과제 너머의 RLVR에 대한 실질적인 보완책으로 만들 수 있다는 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QUBRIC: 검증 가능한 보상을 넘어선 RL을 위한 쿼리 및 루브릭 공동 설계

요약

핵심 포인트

댓글