루브릭을 넘어: 보상 모델링(Reward Modeling)을 위한 탐색 가이드 기반 평가 기술
요약
정답이 없는 개방형 보상 모델링을 위해 재사용 가능한 평가 기술을 합성하는 Eval-Skill을 소개합니다. 루브릭 생성 대신 컨텍스트 진화 방식을 사용하여 추론 오버헤드를 줄이고 다양한 LLM 판사의 성능을 크게 향상시켰습니다.
핵심 포인트
- Eval-Skill은 도메인당 100개의 사례로 평가 기술을 합성함
- 워크플로 및 원칙 생성의 2단계 점진적 과정을 통해 기술 진화
- RewardBench 2 테스트 결과, 주요 백본 성능을 최대 18.51% 향상
- 추론 오버헤드를 줄이는 효율적인 LLM 기반 평가 패러다임 제시
개방형 보상 모델링 (Open-ended reward modeling)은 검증 가능한 정답이 없는 경우, 미묘하고 도메인 특화된 선호도를 따를 수 있는 판사 (judges)를 필요로 합니다. 기존의 루브릭 (rubric) 기반 방식은 각 쿼리마다 실시간으로 기준을 생성하여 이 문제를 해결하려 하지만, 추가적인 생성 단계로 인해 추론 오버헤드 (inference overhead)가 발생하거나 경직되거나 정렬되지 않은 가이드를 생성할 수 있습니다. 우리는 보상 모델링 (reward modeling)을 위해 재사용 가능한 평가 기술을 합성하고, 보상 가이드를 파라미터 학습 (parameter training)이나 쿼리별 루브릭 생성 대신 컨텍스트 진화 (context evolution)로 재정의하는 탐색 가이드 방식인 Eval-Skill을 소개합니다. Eval-Skill은 기술 진화 (skill evolution)를 위해 도메인당 단 100개의 사례만을 사용하여, 워크플로 생성 (workflow generation)에 이어 원칙 생성 (principle generation)으로 이어지는 두 단계의 점진적 과정을 통해 재사용 가능한 도메인 수준의 평가 기술을 합성하며, 두 단계 모두에서 탐색 (exploration)과 선택 (selection)이 교차로 이루어집니다. 일단 생성된 기술은 판사 컨텍스트 (judge context)에 직접 주입됩니다. 여러 RM 벤치마크에 걸쳐 Eval-Skill은 다양한 판사 백본 (judge backbones)의 성능을 일관되게 향상시켰습니다. RewardBench 2에서 Eval-Skill은 각 주요 백본에 대해 기본 판정 (vanilla judging) 대비 상당한 이득을 기록했습니다 (Qwen3-8B의 경우 +13.44%, DeepSeek-V4-Flash의 경우 +18.51%). 진화 시간 스케일링 (evolution-time scaling), 일반화 가능성 (generalizability), 전이 가능성 (transferability)에 대한 추가 분석은 압축된 평가 기술이 LLM 기반 평가를 위한 효율적인 새로운 패러다임을 제공함을 보여줍니다. 코드는 https://github.com/xing-stellus-yue/Eval-Skill 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기