Purified OPSD: 사고 방식을 잃지 않는 온폴리시 자기 증류 (On-Policy Self-Distillation)

온폴리시 자기 증류 (On-Policy Self-Distillation, OPSD)는 참조 솔루션 (reference solutions)에 접근할 수 있는 특권적인 교사 (privileged teacher)가 학생 (student) 모델이 생성한 자체 궤적 (trajectories)에 대해 토큰 수준의 감독 (token-level supervision)을 제공함으로써 LLM의 추론 능력을 향상시키는 유망한 패러다임으로 부상했습니다. 그러나 우리는 OPSD가 긴 사고 사슬 (long chain-of-thought, long-CoT) 추론 모델에서 지속적으로 실패하며, 기껏해야 미미한 이득을 얻는 동시에 이러한 모델들이 의존하는 성찰적 추론 (reflective reasoning) 능력을 불안정하게 만든다는 것을 발견했습니다. 교사의 감독 신호에 대한 새로운 분해 (decomposition)를 통해 우리는 근본 원인을 식별했습니다. 즉, 교사의 감독은 참조 유도 성분 (reference-induced component)에 의해 지배되어 참조 특정 지름길 (reference-specific shortcuts)의 기계적 암기 (rote memorization)를 유도하는 반면, 질문 조건부 (question-conditioned)이며 추론 전이 가능한 (inference-transferable) 성분은 무시되거나 적극적으로 저항을 받게 됩니다. 이러한 진단을 바탕으로 우리는 2단계 솔루션을 제안합니다. 첫째, 감독 신호의 비전이 가능 성분 (non-transferable component)을 격리하기 위해 참조 전용 교사 (reference-only teacher, 질문 없이 참조에만 조건화된 동일 모델)를 구축합니다. 이 성분을 뺀 후의 잔차 (residual)는 질문 조건부이며 추론 전이 가능한 교정 (correction)을 포착합니다. 둘째, 점별 상호 정보량 (pointwise mutual information, PMI)을 메커니즘으로 사용하여 이 잔차를 학생이 직접 증류할 수 있는 잘 형성된 PMI 목표 분포 (PMI target distribution)로 변환함으로써 참조 유도 지름길을 필터링합니다. 두 개의 데이터셋에 걸친 네 개의 long-CoT 모델에 대한 실험은 훈련 과정 전반에 걸쳐 모델의 자연스러운 인식론적 행동 (epistemic behavior)을 보존하면서, 기본 모델 및 표준 OPSD 모두에 비해 일관된 개선을 보여줍니다.

Insights

Purified OPSD: 사고 방식을 잃지 않는 온폴리시 자기 증류 (On-Policy Self-Distillation)

요약

핵심 포인트

댓글

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴