arXiv논문2026. 06. 30. 11:36

PHF: 온폴리시 자기 증류(On-Policy Self-Distillation)를 위한 특권적 은닉 흐름(Privileged Hidden

요약

온폴리시 자기 증류(OPSD)의 한계를 극복하기 위해 은닉 상태의 흐름을 정렬하는 PHF(Privileged Hidden Flow) 기법을 제안합니다. 토큰 수준의 분포뿐만 아니라 은닉 벡터의 전이 방향과 궤적 기하학을 정렬하여 모델 성능을 개선합니다.

핵심 포인트

PHF는 은닉 상태의 점별 모방 대신 토큰 간 전이 방향과 궤적 기하학을 정렬함
Qwen3 모델 시리즈에서 기존 OPSD 대비 성능 향상(Average@12 기준) 입증
수송 목적 함수와 국소 기하학 항이 특정 변환에 대해 불변성을 가짐
기존 OPSD를 컴팩트하게 확장한 은닉 흐름(hidden-flow) 방식임

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 검증된 참조 솔루션을 함께 확인하는 특권적 교사(privileged teacher)와 일치시킴으로써, 자신의 정책(policy)에서 샘플링된 롤아웃(rollouts)을 통해 추론 모델을 학습시킵니다. 기존의 OPSD 목적 함수는 출력 분포(output distribution)만을 감독하므로, 특권적 컨텍스트(privileged context)는 해당 분포를 생성한 내부 연산을 직접 감독하지 않고 토큰 수준의 발산(divergence)을 통해 학습에 영향을 미칩니다. 우리는 특권적 교사의 은닉 상태(hidden states)가 동일한 롤아웃을 따라 어떻게 이동하는지를 추가적으로 증류하는 Privileged Hidden Flow (PHF)를 제안합니다. PHF는 각 학생(student)의 은닉 벡터가 동일한 토큰 위치에서 교사 벡터와 일치하도록 강제하는 대신, 선택된 생성 위치에 대해 토큰 간 전이 방향(token-to-token transition directions)과 궤적 기하학(trajectory geometry)을 정렬합니다. 이 모든 레이어 레시피(all-layer recipe)는 점별 은닉 상태 모방(pointwise hidden-state imitation) 없이, 동일한 전이로부터 계산된 인접 레이어 관계(adjacent-layer relation)를 포함합니다. 동일한 100단계 학습 일정 하에서, PHF는 Qwen3-1.7B, 4B, 8B 모델에 대해 재현된 OPSD 베이스라인 대비 Average@12 집계 수치를 개선하였으며, 약 +2.2, +1.5, +1.7 포인트의 성능 향상을 관찰했습니다. 이 수송 목적 함수(transport objective)는 공유된 궤적 오프셋(trajectory offsets)에 대해 정확히 불변(invariant)하며, 국소 기하학(local geometry) 항 또한 전이 방향의 직교 변환(orthogonal transformations)에 대해 불변합니다. 절제 연구(Ablations)를 통해 고정된 PHF 레시피를 점별 은닉 상태 매칭, 단일 채널 전이 손실(single-channel transition losses), 레이어 부분 집합 선택과 구분하였으며, 이를 통해 PHF가 OPSD에 대한 컴팩트한 은닉 흐름(hidden-flow) 확장임을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PHF: 온폴리시 자기 증류(On-Policy Self-Distillation)를 위한 특권적 은닉 흐름(Privileged Hidden

요약

핵심 포인트

댓글