Critic-Free RLVR에서의 그룹(Groups)에 대한 재고
요약
기존 Critic-free RL의 그룹 기반 롤아웃 방식이 가진 데이터 비효율성과 유연성 부족 문제를 분석합니다. 부정적 샘플에 대한 잘못된 페널티를 방지하는 '부정적 토큰 필터링' 전략을 통해 단일 롤아웃만으로도 높은 성능을 달성하는 방법을 제안합니다.
핵심 포인트
- 기존 그룹 기반 RL의 데이터 비효율성 및 구조적 한계 지적
- 그룹의 핵심 역할이 부정적 샘플에 대한 잘못된 페널티 방지임을 규명
- 부정적 토큰 필터링을 통한 안정적인 단일 롤아웃 학습 제안
- 추론 및 에이전트 작업에서 기존 그룹 기반 방식과 대등하거나 우수한 성능 입증
강화학습 (RL)은 대규모 언어 모델 (LLM)의 사후 학습 (post-training)을 위한 핵심 패러다임이 되었습니다. 기존의 Critic-free RL 방법들은 일반적으로 어드밴티지 (advantage) 계산을 위한 가치 베이스라인 (value baselines)을 추정하기 위해 동일한 질문에 대해 하나의 그룹 형태의 롤아웃 (rollouts)을 생성합니다. 그러나 이러한 설계는 데이터 비효율성, 그룹 동기화 장벽, 그리고 구조화된 롤아웃에 대한 유연성 부족이라는 문제를 겪습니다. 본 연구에서는 "그룹 (group)"의 역할을 재검토하며, 그 근본적인 기능이 단순히 베이스라인을 추정하는 것이 아니라 부정적 샘플 (negative samples)에 대한 잘못된 페널티 (false penalties)를 방지하는 것임을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 안정적인 단일 롤아웃 (single-rollout) 학습을 가능하게 하는 단순하고 효과적인 전략인 부정적 토큰 필터링 (negative token filtering)을 제안합니다. 이를 두 가지 배치 레벨 어드밴티지 (batch-level advantage) 방법론에 적용한 결과, 추론 (reasoning) 작업에서는 그룹 기반 RL 기술과 대등한 성능을 달성하였고, 에이전트 (agentic) 작업에서는 더 강력한 성능을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기