arXiv논문2026. 06. 15. 04:59

밀집된 감독, 희소한 업데이트: 온폴리시 증류(On-Policy Distillation)의 희소성 및 기하학적 구조에 대하여

요약

온폴리시 증류(OPD)가 모델 파라미터에 미치는 영향과 기하학적 구조를 분석한 연구입니다. OPD 업데이트는 좌표 희소적이며 FFN에 집중되는 특성을 보이며, 소스 가중치의 주요 특이 부분 공간을 유지하는 기하학적 특징을 가집니다.

핵심 포인트

OPD 업데이트는 크기가 작고 좌표 희소적인 특성을 가짐
발견된 서브네트워크만 학습해도 전체 성능의 대부분을 회복 가능
AdamW 옵티마이저가 이질적인 그래디언트 스케일 보존에 유리함
업데이트는 수치적으로는 풀 랭크이나 스펙트럼적으로는 집중됨
OPD는 일반적인 밀집 파라미터 재작성이 아닌 고유한 기하학적 특징을 유지함

온폴리시 증류 ( extsc{OPD})는 온폴리시 학생 궤적(on-policy student trajectories)과 밀집된 교사 감독(dense teacher supervision)이라는 두 가지 바람직한 요소를 결합하기 때문에 최근 유망한 사후 학습(post-training) 레시피로 부상했습니다. 하지만 이러한 하이브리드 방식이 모델의 파라미터를 어떻게 변화시키는지에 대해서는 여전히 불분명합니다. 여러 언어 및 시각-언어 모델 쌍과 사용 사례에 걸친 분석을 통해 우리는 두 가지 주요 발견을 도출했습니다. 희소성(sparsity) 측면에서, extsc{OPD} 스타일의 업데이트는 크기가 작고 좌표 희소적(coordinate-sparse)입니다. 이는 레이어 전반에 걸쳐 분포되어 있으며 대개 FFN(Feed-Forward Network)에 집중되어 있습니다. 이러한 희소 구조는 운영 측면에서 유용합니다. 발견된 서브네트워크(subnetwork)만을 학습시켜도 전체 extsc{OPD}와 거의 동일한 성능을 회복할 수 있습니다. 그러나 최적화 도구 제거 실험(optimizer ablation)에서 희소성을 유도하는 SGD 옵티마이저는 AdamW보다 성능이 낮게 나타났는데, 이는 밀집된 교사 감독이 이질적인 좌표별 그래디언트 스케일(heterogeneous coordinate-wise gradient scales)을 보존하며, 이 경우 AdamW의 적응형 스케일링(adaptive scaling)이 여전히 유용하기 때문으로 보입니다. 기하학(geometry) 측면에서, 업데이트는 수치적으로는 풀 랭크(full-rank)이지만 스펙트럼적으로는 집중되어 있습니다. 즉, 업데이트는 소스 가중치(source weights)의 주요 특이 부분 공간(principal singular subspaces)에서 주로 벗어나 있으며, 소스 가중치가 0에 가까운 좌표에 불균형적으로 집중됩니다. 이러한 발견은 밀집된 교사 감독이 extsc{OPD}를 일반적인 밀집 파라미터 재작성(dense parameter rewriting)으로 바꾸지 않는다는 것을 시사합니다. 대신, extsc{OPD}는 온폴리시 사후 학습의 중요한 기하학적 특징(geometric signatures)을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

밀집된 감독, 희소한 업데이트: 온폴리시 증류(On-Policy Distillation)의 희소성 및 기하학적 구조에 대하여

요약

핵심 포인트

댓글