온폴리시 증류 (On-Policy Distillation)를 위한 블록 단위 정책 드리프트 게이팅 (Blockwise Policy-Drift
요약
온폴리시 증류(OPD) 과정에서 긴 추론 작업의 성능을 높이기 위해 블록 단위 정책 드리프트 게이팅 기법을 제안합니다. 학생 모델의 로그 확률 변화량을 블록 단위로 집계하여 손실 가중치를 재조정함으로써 수학 추론 성능을 향상시킵니다.
핵심 포인트
- 온폴리시 증류(OPD)의 긴 호흡 추론 취약점 해결
- 블록 단위 정책 드리프트 게이팅 기법 도입
- 교사 모델 수정 없이 학생 모델의 로그 확률 변화량 활용
- Qwen3 수학 추론 벤치마크(AIME, MATH500 등) 성능 향상
온폴리시 증류 (On-policy distillation, OPD)는 학생 모델(student) 자체가 샘플링한 궤적(trajectories)에서 계산된 교사(teacher) 신호를 사용하여 학생 정책을 학습합니다. 최근 연구에 따르면 샘플링된 토큰 기반의 OPD는 긴 호흡의 추론(long-horizon reasoning) 작업에서 취약할 수 있으며, 국소적인 교사 지원 매칭(local teacher-support matching)이 간단하면서도 효과적인 해결책임을 보여주었습니다. 본 논문은 롤아웃 재사용 (rollout reuse) 환경에서의 OPD를 위해, 학생 모델만 사용하는 경량화된 구형-현재 드리프트 컨트롤러(old-current drift controller)인 블록 단위 정책 드리프트 게이팅 (blockwise policy-drift gating)을 소개합니다. 이 방법은 샘플링된 토큰 경로 상에서 행동 학생 (behavior student)과 현재 학생 (current student) 사이의 로그 확률 변화량 (log-probability shifts)을 계산하고, 이러한 변화량을 고정된 블록 또는 구간(spans)에 대해 집계하며, 결과로 도출된 분리된(detached) 평균 정규화 게이트 (mean-normalized gates)를 사용하여 OPD 위치 손실 (position losses)의 가중치를 재조정합니다. 이 방식은 교사 타겟 (teacher targets), 교사 Top-K 지원 (teacher top-K supports), 또는 롤아웃 정책 (rollout policy)을 변경하지 않습니다. 모든 학습 변형 모델에 대해 균일한 200단계 학습 예산을 부여한 6가지 변형의 Qwen3 수학 추론 벤치마크에서, 우리는 문제 수준의 해결률 지표로 pass@8을 사용합니다. 고정된 64-토큰 블록 게이팅은 AIME24, AIME25, MATH500, AMC23 전반에 걸쳐 샘플링된 토큰 OPD의 평균 pass@8을 0.4978에서 0.5160으로 향상시킵니다. Teacher-TopK/LSM 상에서 Block64는 학습된 학생 모델들 중 4개 벤치마크 평균 pass@8에서 가장 우수한 성능을 보였습니다. 본 결과는 국소적인 구형-현재 정책 드리프트 (local old-current policy drift)가 재사용된 OPD 롤아웃을 위한 실용적인 제어 신호임을 확인시켜 주며, 해결률 견고성 (solve-rate robustness)을 향상시키기 위한 간단한 기본 설정으로서 블록 수준 게이팅 (block-level gating)의 필요성을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기