SCOPE: 개방형 과업을 위한 정책 공동 진화를 통한 셀프 플레이 (Self-Play via Co-Evolving Policies for
요약
SCOPE는 외부 감독이나 정답 없이도 언어 모델을 학습시킬 수 있는 데이터 프리 셀프 플레이 프레임워크입니다. 챌린저와 솔버 정책을 공동 진화시켜 개방형 과업 성능을 크게 향상시켰으며, 기존 GRPO 방식과 대등하거나 더 높은 성능을 입증했습니다.
핵심 포인트
- 데이터 프리 셀프 플레이 프레임워크 SCOPE 제안
- 챌린저와 솔버의 공동 진화를 통한 개방형 과업 해결
- Qwen2.5, OLMo-3 등에서 벤치마크 성능 최대 10.4% 향상
- 단답형 QA 성능에서도 기존 학습 데이터 대비 높은 성능 기록
- 루브릭 생성 품질이 셀프 판정의 핵심 병목 구간임 확인
셀프 플레이 (Self-play)는 외부의 감독 없이도 언어 모델을 학습시킬 수 있습니다. 그러나 기존 방식들은 규칙 검증이 가능한 정답을 필요로 하며, 이로 인해 개방형 과업 (open-ended tasks)은 정교하게 큐레이션된 프롬프트나 최첨단 모델 (frontier-model) 판정기에 의존해야 하는 한계가 있습니다. 우리는 두 개의 정책을 공동 진화 (co-evolves)시키는 개방형 과업을 위한 데이터 프리 (data-free) 셀프 플레이 프레임워크인 SCOPE를 소개합니다. 이 프레임워크는 문서에 기반한 과업을 생성하는 챌린저 (Challenger)와 다회차 검색 (multi-turn retrieval)을 통해 이에 답하는 솔버 (Solver)로 구성됩니다. 초기 모델의 동결된 복사본은 셀프 판정기 (self-judge) 역할을 수행하며, 소스 문서로부터 과업별 루브릭 (rubrics)을 작성하고 이를 바탕으로 솔버의 응답을 채점합니다. 세 가지 7-8B 지시어 미세 조정 (instruction-tuned) 모델 (Qwen2.5, Qwen3, OLMo-3)을 대상으로 실험한 결과, SCOPE는 8개의 벤치마크에서 개방형 성능을 최대 +10.4포인트 향상시켰으며, 약 9K개의 큐레이션된 프롬프트로 학습된 GRPO_data와 대등하거나 이를 상회하는 성능을 보였습니다. 개방형 과업으로만 학습되었음에도 불구하고, SCOPE는 7개의 홀드아웃 (held-out) 벤치마크에서 홀드아웃 단답형 QA 성능을 최대 +13.8포인트 향상시켰으며, 세 모델 모두에서 GRPO_data를 능가했습니다. 절제 연구 (Ablations)를 통해 챌린저를 공동 진화시키는 것이 과업을 솔버의 경계선 (frontier) 근처에 유지하는 데 필수적이라는 점, 이득은 검색 (retrieval)과 합성 (synthesis) 모두의 개선에서 발생하며 과업에 따라 상대적 기여도가 달라진다는 점, 그리고 루브릭 생성 품질이 셀프 판정 (self-judging)의 병목 구간이라는 점을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기