본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:03

적을수록 많다: On-Policy 증류를 위한 조기 종료 롤아웃 (Early Stopping Rollout)

요약

On-policy 증류 과정에서 발생하는 'Off-policy 교사 감쇠' 문제를 해결하기 위해 조기 종료 롤아웃(ESR) 전략을 제안합니다. ESR은 롤아웃 생성을 초기 토큰으로 제한하여 학습 안정성과 GPU 효율성을 높이며, 교차 모델 시나리오에서 뛰어난 성능을 보입니다.

핵심 포인트

  • On-policy 증류 시 발생하는 교사 모델의 점수 생성 능력 감쇠 문제 발견
  • 조기 종료 롤아웃(ESR)을 통한 효율적인 증류 전략 제안
  • ESR은 모델 크기와 작업에 관계없이 기존 OPD 성능을 능가
  • 연쇄적 정렬 및 하위 모드 전념 효과를 통한 성능 향상 메커니즘 규명

On-policy 증류 (On-policy distillation)는 최근 표준적인 시퀀스 수준 모방 (sequence-level imitation)의 유망한 대안으로 부상하였으며, 학생 모델 (student model)이 생성한 자신의 롤아웃 (rollouts)을 교사 모델 (teacher model)로 점수화하여 학습하는 방식입니다. 그러나 우리는 이 패러다임에서 "Off-policy 교사 감쇠 (Off-policy Teacher Decay)" 문제를 관찰했습니다. 즉, 학생의 이전 궤적 (trajectory)이 교사에게는 Off-policy 컨텍스트로 작용하는 후반부 토큰의 경우, 교사가 교정적인 점수 (corrective score)를 생성하는 능력이 감쇠하며, 사전 학습 (pre-training) 단계에서 학습된 토큰 완성 (token-completion) 동작으로 회귀할 수 있다는 점입니다. 우리는 이 문제를 경험적으로 검증하였으며, 이를 해결하기 위해 조기 종료 롤아웃 (Early Stopping Rollout, ESR)을 제안합니다. 이는 롤아웃 생성 (rollout generation)을 첫 번째 응답 토큰들로 단순히 제한하는 간단하면서도 효과적인 증류 (distillation) 전략입니다. 우리는 ESR이 모델 크기, 제품군 (family), 작업 (tasks) 및 학습 방식 (training regime) 전반에 걸쳐 전체 롤아웃 OPD 성능을 능가할 뿐만 아니라, 특히 교차 모델 제품군 (cross model family) 시나리오에서 훨씬 높은 GPU 효율성과 학습 안정성을 보여준다는 것을 입증했습니다. 나아가 우리는 이 놀라운 성능 뒤에 숨겨진 메커니즘을 조사하여, ESR이 왜 효과적으로 작동하며 때로는 교사 모델의 성능을 능가하기까지 하는지를 설명할 수 있는 "연쇄적 정렬 (Cascading Alignment)" 및 "하위 모드 전념 (Sub-mode Commitment)" 효과를 발견했습니다. 또한, 이러한 위치 기반 토큰 선택 (position-based token selection) 전략은 KL 발산 (KL divergence) 및 엔트로피 (entropy) 신호만으로는 완전히 설명될 수 없음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0