더 밀도 높다고 더 나은 것은 아니다: 지속적 사후 학습(Continual Post-Training)을 위한 온폴리시 자기

지속적 사후 학습 (Continual post-training)은 파운데이션 모델 (foundation models)이 기존 능력을 보존하면서 새로운 지식을 습득할 수 있게 합니다. 최근 연구들은 온폴리시 학습 (on-policy learning)이 망각을 완화할 수 있음을 시사하며, 특히 온폴리시 자기 증류 (on-policy self-distillation)가 매우 매력적인 접근 방식으로 떠오르고 있습니다. 본 연구에서는 자기 증류 정책 최적화 (Self-Distillation Policy Optimization, SDPO)를 통해 이러한 낙관적인 관점을 재검토합니다. 우리의 실험 결과에 따르면, SDPO는 교사 신호 (teacher signals)가 안정적이고 잘 정렬되어 있을 때는 도메인 내 전문화 (in-domain specialization)를 가속화할 수 있지만, 분포 외 (out-of-distribution) 시나리오로 일반화하는 데는 어려움을 겪습니다. 지속적 사후 학습에서 SDPO는 더 강한 망각을 보이며 심지어 붕괴 (collapse)될 수도 있는 반면, GRPO와 같은 온폴리시 강화 학습 (on-policy reinforcement learning) 방법들은 더 보수적으로 적응하며 이전 능력을 더 잘 보존합니다. 추가 분석 결과, 더 밀도 높은 자기 증류 (denser self-distillation)는 파라미터 공간 (parameter space)과 응답 공간 (response space) 모두에서 더 큰 드리프트 (drift)를 유발하며, 자기 강화적인 교사-학생 루프 (teacher--student loop)를 통해 고주파 포맷팅 아티팩트 (high-frequency formatting artifacts)를 증폭시킬 수 있음을 밝혀냈습니다. 이러한 발견은 온폴리시 데이터만으로는 지속적 학습 (continual learning)에 불충분하다는 것을 시사합니다. 밀도 높은 자기 증류는 교사 타겟 (teacher targets)이 안정적이고 토큰 수준의 감독 (token-level supervision)이 신뢰할 수 있을 때 전문화를 가속화할 수 있지만, 지속적 사후 학습을 위한 기본 안정화 장치로 취급되어서는 안 됩니다. 우리의 코드는 https://github.com/Moenupa/SDPO-CL 에서 확인할 수 있습니다.

Insights

더 밀도 높다고 더 나은 것은 아니다: 지속적 사후 학습(Continual Post-Training)을 위한 온폴리시 자기

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법