arXiv논문2026. 06. 03. 12:12

Skill-RM: 에이전트 기술(Agent Skill)을 통한 이기종 평가 기준의 통합

요약

Skill-RM은 이기종 평가 기준을 통합하기 위해 보상 모델링을 재사용 가능한 '에이전트 기술'로 재정의하는 새로운 프레임워크입니다. 보상 계산을 구조화된 에이전트 작업으로 처리하여 다양한 증거를 동적으로 선택하고 집계함으로써 기존 모델보다 뛰어난 성능을 보여줍니다.

핵심 포인트

보상 모델링을 에이전트 기술(Agent Skill) 실행으로 재정의
이기종 평가 리소스를 조율하는 일관된 인터페이스 제공
증거의 동적 선택 및 집계를 통한 평가 투명성 확보
기존 판사 베이스라인(Judge Baselines)을 능가하는 성능 입증

보상 모델 (Reward Models, RMs)은 LLM 사후 학습 (post-training), 특히 강화 미세 조정 (Reinforced Fine-Tuning, RFT) 및 강화 학습 (Reinforcement Learning, RL) 파이프라인에서 중요한 피드백 신호를 제공합니다. 그러나 현재의 보상 평가 (reward evaluation)는 규칙 기반 검증기 (rule-based verifiers), 정답 참조 (ground-truth references), 절차적 체크리스트 (procedural checklists), 그리고 복잡한 루브릭 (complex rubrics)과 같은 이기종 기준 (heterogeneous criteria)에 의존하고 있으며, 모든 유형의 증거를 통합할 수 있는 통일된 메커니즘은 아직 탐구되지 않은 상태로 남아 있습니다. 이를 위해, 우리는 보상 모델링 (reward modeling)을 재사용 가능한 '보상-평가 기술 (Reward-Evaluation Skill)'의 실행으로 재정의하는 통합 프레임워크인 Skill Reward Model (Skill-RM)을 제안합니다. 보상 계산을 구조화된 에이전트 작업 (agentic task)으로 취급함으로써, Skill-RM은 이기종 리소스를 조율할 수 있는 일관된 인터페이스를 제공하며, 각 입력의 특정 요구 사항에 맞게 증거를 동적으로 선택하고 집계합니다. 이러한 접근 방식은 보상 모델이 정적인 평가를 넘어 다양한 작업 전반에서 일관성과 투명성을 보장할 수 있게 합니다. Best-of-N 선택 및 강화 학습을 포함한 보상 벤치마크와 다운스트림 애플리케이션 (downstream applications)에 대한 광범위한 실험 결과, Skill-RM은 기존의 판사 베이스라인 (judge baselines)을 지속적으로 능가함을 입증했습니다. 우리의 연구 결과는 Skill-RM이 보상 모델링을 위한 통합된 솔루션을 제공할 뿐만 아니라, 증거의 전략적이고 동적인 조율을 통해 우수한 성능을 달성함을 시사합니다. 코드는 https://github.com/Qwen-Applications/Skill-RM 에 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Skill-RM: 에이전트 기술(Agent Skill)을 통한 이기종 평가 기준의 통합

요약

핵심 포인트

댓글