Purified OPSD: 사고 방식을 잃지 않는 온폴리시 자기 증류 (On-Policy Self-Distillation)
요약
온폴리시 자기 증류(OPSD)가 긴 사고 사슬(long-CoT) 모델의 추론 능력을 저해하는 문제를 분석하고, 이를 해결하기 위한 Purified OPSD를 제안합니다. 참조 데이터의 지름길 암기를 방지하기 위해 감독 신호를 분해하고 PMI 메커니즘을 통해 추론 전이 가능한 성분만을 증류합니다.
핵심 포인트
- 기존 OPSD는 long-CoT 모델의 성찰적 추론 능력을 불안정하게 만듦
- 교사의 감독 신호가 참조 데이터의 지름길을 암기하게 유도하는 문제 식별
- 참조 전용 교사를 통해 비전이 가능 성분을 격리하는 2단계 솔루션 제안
- PMI 목표 분포를 활용해 추론 전이 가능한 교정 신호만 효과적으로 증류
- 실험 결과, 모델의 인식론적 행동을 보존하며 일관된 성능 향상 입증
온폴리시 자기 증류 (On-Policy Self-Distillation, OPSD)는 참조 솔루션 (reference solutions)에 접근할 수 있는 특권적인 교사 (privileged teacher)가 학생 (student) 모델이 생성한 자체 궤적 (trajectories)에 대해 토큰 수준의 감독 (token-level supervision)을 제공함으로써 LLM의 추론 능력을 향상시키는 유망한 패러다임으로 부상했습니다. 그러나 우리는 OPSD가 긴 사고 사슬 (long chain-of-thought, long-CoT) 추론 모델에서 지속적으로 실패하며, 기껏해야 미미한 이득을 얻는 동시에 이러한 모델들이 의존하는 성찰적 추론 (reflective reasoning) 능력을 불안정하게 만든다는 것을 발견했습니다. 교사의 감독 신호에 대한 새로운 분해 (decomposition)를 통해 우리는 근본 원인을 식별했습니다. 즉, 교사의 감독은 참조 유도 성분 (reference-induced component)에 의해 지배되어 참조 특정 지름길 (reference-specific shortcuts)의 기계적 암기 (rote memorization)를 유도하는 반면, 질문 조건부 (question-conditioned)이며 추론 전이 가능한 (inference-transferable) 성분은 무시되거나 적극적으로 저항을 받게 됩니다. 이러한 진단을 바탕으로 우리는 2단계 솔루션을 제안합니다. 첫째, 감독 신호의 비전이 가능 성분 (non-transferable component)을 격리하기 위해 참조 전용 교사 (reference-only teacher, 질문 없이 참조에만 조건화된 동일 모델)를 구축합니다. 이 성분을 뺀 후의 잔차 (residual)는 질문 조건부이며 추론 전이 가능한 교정 (correction)을 포착합니다. 둘째, 점별 상호 정보량 (pointwise mutual information, PMI)을 메커니즘으로 사용하여 이 잔차를 학생이 직접 증류할 수 있는 잘 형성된 PMI 목표 분포 (PMI target distribution)로 변환함으로써 참조 유도 지름길을 필터링합니다. 두 개의 데이터셋에 걸친 네 개의 long-CoT 모델에 대한 실험은 훈련 과정 전반에 걸쳐 모델의 자연스러운 인식론적 행동 (epistemic behavior)을 보존하면서, 기본 모델 및 표준 OPSD 모두에 비해 일관된 개선을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기