arXiv논문2026. 05. 27. 12:03

적을수록 많다: On-Policy 증류를 위한 조기 종료 롤아웃 (Early Stopping Rollout)

요약

On-policy 증류 과정에서 발생하는 'Off-policy 교사 감쇠' 문제를 해결하기 위해 조기 종료 롤아웃(ESR) 전략을 제안합니다. ESR은 롤아웃 생성을 초기 토큰으로 제한하여 학습 안정성과 GPU 효율성을 높이며, 교차 모델 시나리오에서 뛰어난 성능을 보입니다.

핵심 포인트

On-policy 증류 시 발생하는 교사 모델의 점수 생성 능력 감쇠 문제 발견
조기 종료 롤아웃(ESR)을 통한 효율적인 증류 전략 제안
ESR은 모델 크기와 작업에 관계없이 기존 OPD 성능을 능가
연쇄적 정렬 및 하위 모드 전념 효과를 통한 성능 향상 메커니즘 규명

On-policy 증류 (On-policy distillation)는 최근 표준적인 시퀀스 수준 모방 (sequence-level imitation)의 유망한 대안으로 부상하였으며, 학생 모델 (student model)이 생성한 자신의 롤아웃 (rollouts)을 교사 모델 (teacher model)로 점수화하여 학습하는 방식입니다. 그러나 우리는 이 패러다임에서 "Off-policy 교사 감쇠 (Off-policy Teacher Decay)" 문제를 관찰했습니다. 즉, 학생의 이전 궤적 (trajectory)이 교사에게는 Off-policy 컨텍스트로 작용하는 후반부 토큰의 경우, 교사가 교정적인 점수 (corrective score)를 생성하는 능력이 감쇠하며, 사전 학습 (pre-training) 단계에서 학습된 토큰 완성 (token-completion) 동작으로 회귀할 수 있다는 점입니다. 우리는 이 문제를 경험적으로 검증하였으며, 이를 해결하기 위해 조기 종료 롤아웃 (Early Stopping Rollout, ESR)을 제안합니다. 이는 롤아웃 생성 (rollout generation)을 첫 번째 응답 토큰들로 단순히 제한하는 간단하면서도 효과적인 증류 (distillation) 전략입니다. 우리는 ESR이 모델 크기, 제품군 (family), 작업 (tasks) 및 학습 방식 (training regime) 전반에 걸쳐 전체 롤아웃 OPD 성능을 능가할 뿐만 아니라, 특히 교차 모델 제품군 (cross model family) 시나리오에서 훨씬 높은 GPU 효율성과 학습 안정성을 보여준다는 것을 입증했습니다. 나아가 우리는 이 놀라운 성능 뒤에 숨겨진 메커니즘을 조사하여, ESR이 왜 효과적으로 작동하며 때로는 교사 모델의 성능을 능가하기까지 하는지를 설명할 수 있는 "연쇄적 정렬 (Cascading Alignment)" 및 "하위 모드 전념 (Sub-mode Commitment)" 효과를 발견했습니다. 또한, 이러한 위치 기반 토큰 선택 (position-based token selection) 전략은 KL 발산 (KL divergence) 및 엔트로피 (entropy) 신호만으로는 완전히 설명될 수 없음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

적을수록 많다: On-Policy 증류를 위한 조기 종료 롤아웃 (Early Stopping Rollout)

요약

핵심 포인트

댓글