arXiv논문2026. 06. 09. 11:51

On-Policy Distillation에서의 KL Agreement Trap 탈출하기

요약

On-policy distillation(OPD) 과정에서 학생 모델이 잘못된 경로로 빠졌을 때 교사 모델과 잘못 일치하게 되는 'low-KL agreement trap' 현상을 분석했습니다. 이를 해결하기 위해 동적 임계값을 사용하여 유효하지 않은 학습 신호를 차단하는 KAT 알고리즘을 제안합니다.

핵심 포인트

low-KL agreement trap: 학생 모델의 오류에 교사 모델이 동조하는 현상
KAT(KL Agreement Trap Termination) 알고리즘 제안
수학적 벤치마크에서 avg@k 2.66%, pass@k 3.43% 성능 향상
평균 롤아웃 길이를 59.73% 감소시켜 학습 효율성 증대

On-policy distillation (OPD)는 교사(teacher) 모델이 학생(student) 모델이 생성한 롤아웃(rollout)에 점수를 매기도록 함으로써 조밀한 토큰 수준의 감독(supervision)을 제공합니다. 그러나 학생 모델이 복구 불가능한 접두사(prefix)로 표류할 경우, 교사 모델은 저하된 상태와 국소적으로 일치(agree)할 수 있으며, 이로 인해 낮은 역 KL (reverse KL)을 생성하지만 교정적인 학습 신호(corrective training signal)는 거의 제공하지 못하게 됩니다. 우리는 이러한 지속적인 상태를 low-KL agreement trap이라고 정의합니다. 추가 분석 결과, 이러한 trap이 발생하는 도중과 그 이후의 토큰들은 유용한 감독 신호를 덜 생성한다는 것을 보여줍니다. 우리는 동적인 학습 적응형 임계값(dynamic training-adaptive threshold)을 통해 지속적인 low-KL 일치를 감지하는 온라인 OPD 종료 규칙인 KAT (KL Agreement Trap Termination)를 제안합니다. 퇴보적인 일치(degenerate agreement)로부터 발생하는 약한 감독을 필터링함으로써, KAT는 4개의 수학적 벤치마크에서 avg@k 정확도를 2.66%, pass@k를 3.43% 향상시키는 동시에 평균 롤아웃 길이를 59.73% 감소시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

On-Policy Distillation에서의 KL Agreement Trap 탈출하기

요약

핵심 포인트

댓글