더 밀도 높다고 더 나은 것은 아니다: 지속적 사후 학습(Continual Post-Training)을 위한 온폴리시 자기
요약
지속적 사후 학습에서 온폴리시 자기 증류(SDPO)의 효과를 재검토한 연구입니다. SDPO는 특정 도메인 전문화에는 유리하지만, 분포 외 일반화 능력이 떨어지고 망각 및 모델 붕괴 위험이 있음을 밝혀냈습니다.
핵심 포인트
- SDPO는 도메인 내 전문화는 가속화하나 OOD 일반화에는 취약함
- 밀도 높은 자기 증류는 파라미터 및 응답 공간의 드리프트를 유발함
- GRPO와 같은 온폴리시 강화 학습이 이전 능력 보존에 더 효과적임
- 자기 강화적 루프가 고주파 포맷팅 아티팩트를 증폭시킬 수 있음
지속적 사후 학습 (Continual post-training)은 파운데이션 모델 (foundation models)이 기존 능력을 보존하면서 새로운 지식을 습득할 수 있게 합니다. 최근 연구들은 온폴리시 학습 (on-policy learning)이 망각을 완화할 수 있음을 시사하며, 특히 온폴리시 자기 증류 (on-policy self-distillation)가 매우 매력적인 접근 방식으로 떠오르고 있습니다. 본 연구에서는 자기 증류 정책 최적화 (Self-Distillation Policy Optimization, SDPO)를 통해 이러한 낙관적인 관점을 재검토합니다. 우리의 실험 결과에 따르면, SDPO는 교사 신호 (teacher signals)가 안정적이고 잘 정렬되어 있을 때는 도메인 내 전문화 (in-domain specialization)를 가속화할 수 있지만, 분포 외 (out-of-distribution) 시나리오로 일반화하는 데는 어려움을 겪습니다. 지속적 사후 학습에서 SDPO는 더 강한 망각을 보이며 심지어 붕괴 (collapse)될 수도 있는 반면, GRPO와 같은 온폴리시 강화 학습 (on-policy reinforcement learning) 방법들은 더 보수적으로 적응하며 이전 능력을 더 잘 보존합니다. 추가 분석 결과, 더 밀도 높은 자기 증류 (denser self-distillation)는 파라미터 공간 (parameter space)과 응답 공간 (response space) 모두에서 더 큰 드리프트 (drift)를 유발하며, 자기 강화적인 교사-학생 루프 (teacher--student loop)를 통해 고주파 포맷팅 아티팩트 (high-frequency formatting artifacts)를 증폭시킬 수 있음을 밝혀냈습니다. 이러한 발견은 온폴리시 데이터만으로는 지속적 학습 (continual learning)에 불충분하다는 것을 시사합니다. 밀도 높은 자기 증류는 교사 타겟 (teacher targets)이 안정적이고 토큰 수준의 감독 (token-level supervision)이 신뢰할 수 있을 때 전문화를 가속화할 수 있지만, 지속적 사후 학습을 위한 기본 안정화 장치로 취급되어서는 안 됩니다. 우리의 코드는 https://github.com/Moenupa/SDPO-CL 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기