arXiv논문2026. 06. 01. 11:02

온폴리시 증류 (On-Policy Distillation)를 위한 신뢰 영역 행동 혼합 (Trust-Region Behavior

요약

온폴리시 증류(OPD)의 초기 저품질 롤아웃 문제를 해결하기 위해 신뢰 영역 행동 혼합(TRB) 기법을 제안합니다. KL 신뢰 영역 내에서 학생의 정책을 교사에게 가깝게 교체하는 웜업 방식을 통해 수학적 추론 성능을 극대화합니다.

핵심 포인트

OPD의 접두사 불일치 문제 해결 및 초기 롤아웃 품질 개선
KL 신뢰 영역을 활용한 행동 정책 교체 및 웜업 방법 제안
KL 예산을 0으로 어닐링하여 순수 학생 롤아웃 학습으로 전환
수학적 추론 증류 설정에서 기존 방법 대비 우수한 성능 달성

온폴리시 증류 (On-Policy Distillation, OPD)는 더 강력한 교사 (Teacher) 모델과 일치시키면서, 학생 (Student) 모델 자신의 정책 (Policy)에서 샘플링된 접두사 (Prefix)를 통해 학생을 학습시킵니다. 이는 오프라인 증류 (Offline Distillation)의 접두사 불일치 (Prefix mismatch) 문제를 해결하지만, 초기 학생 모델의 롤아웃 (Rollout)은 여전히 품질이 낮을 수 있으며, 이로 인해 교사의 감독이 약하거나 저품질인 접두사에 배치될 수 있습니다. 우리는 학생 중심의 KL 신뢰 영역 (KL trust region) 내에서 초기 롤아웃 정책을 교사에게 가장 가까운 행동 정책 (Behavior policy)으로 교체하는 동시에, 접두사별 역-KL (Reverse-KL) OPD 손실 (Loss)은 변경하지 않는 웜업 (Warmup) 방법인 신뢰 영역 행동 혼합 (Trust-Region Behavior Blending, TRB)을 제안합니다. KL 예산 (KL budget)은 0으로 어닐링 (Annealed)되어, 웜업 이후에는 학습이 순수한 학생 롤아웃으로 돌아갑니다. 두 가지 수학적 추론 (Math-reasoning) 증류 설정 전반에 걸쳐, TRB는 비교된 방법들 중 가장 강력한 평균 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

온폴리시 증류 (On-Policy Distillation)를 위한 신뢰 영역 행동 혼합 (Trust-Region Behavior

요약

핵심 포인트

댓글