본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:02

온폴리시 증류 (On-Policy Distillation)를 위한 신뢰 영역 행동 혼합 (Trust-Region Behavior

요약

온폴리시 증류(OPD)의 초기 저품질 롤아웃 문제를 해결하기 위해 신뢰 영역 행동 혼합(TRB) 기법을 제안합니다. KL 신뢰 영역 내에서 학생의 정책을 교사에게 가깝게 교체하는 웜업 방식을 통해 수학적 추론 성능을 극대화합니다.

핵심 포인트

  • OPD의 접두사 불일치 문제 해결 및 초기 롤아웃 품질 개선
  • KL 신뢰 영역을 활용한 행동 정책 교체 및 웜업 방법 제안
  • KL 예산을 0으로 어닐링하여 순수 학생 롤아웃 학습으로 전환
  • 수학적 추론 증류 설정에서 기존 방법 대비 우수한 성능 달성

온폴리시 증류 (On-Policy Distillation, OPD)는 더 강력한 교사 (Teacher) 모델과 일치시키면서, 학생 (Student) 모델 자신의 정책 (Policy)에서 샘플링된 접두사 (Prefix)를 통해 학생을 학습시킵니다. 이는 오프라인 증류 (Offline Distillation)의 접두사 불일치 (Prefix mismatch) 문제를 해결하지만, 초기 학생 모델의 롤아웃 (Rollout)은 여전히 품질이 낮을 수 있으며, 이로 인해 교사의 감독이 약하거나 저품질인 접두사에 배치될 수 있습니다. 우리는 학생 중심의 KL 신뢰 영역 (KL trust region) 내에서 초기 롤아웃 정책을 교사에게 가장 가까운 행동 정책 (Behavior policy)으로 교체하는 동시에, 접두사별 역-KL (Reverse-KL) OPD 손실 (Loss)은 변경하지 않는 웜업 (Warmup) 방법인 신뢰 영역 행동 혼합 (Trust-Region Behavior Blending, TRB)을 제안합니다. KL 예산 (KL budget)은 0으로 어닐링 (Annealed)되어, 웜업 이후에는 학습이 순수한 학생 롤아웃으로 돌아갑니다. 두 가지 수학적 추론 (Math-reasoning) 증류 설정 전반에 걸쳐, TRB는 비교된 방법들 중 가장 강력한 평균 성능을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0