DemoPSD: 불일치 조절 정책 자기 증류 (Disagreement-Modulated Policy Self-Distillation)
요약
DemoPSD는 온폴리시 자기 증류 과정에서 발생하는 특권 정보 누출과 과적합 문제를 해결하기 위한 새로운 프레임워크입니다. 교사와 학생 모델 간의 불일치를 측정하여 학습 가이드를 적응적으로 조절함으로써, 탐색 능력을 보존하고 일반화 성능을 높입니다.
핵심 포인트
- 특권 정보 누출로 인한 정답 의존적 지름길 문제 해결
- 역-KL 바리센터 타겟을 통한 교사-학생 분포의 균형 유지
- 불일치(discrepancy) 기반의 적응적 토큰 혼합 제어
- SciKnowEval 및 GPQA 벤치마크에서 우수한 일반화 성능 입증
온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 단일 모델이 서로 다른 수준의 정보 접근 권한을 가진 교사(teacher)와 학생(student) 역할을 동시에 수행하며 대규모 언어 모델 (LLMs)의 추론 능력을 학습시키는 실용적인 방법으로 부상했습니다. 그러나 최근 연구에 따르면, 특권 정보 (privileged information)를 조건으로 하는 교사의 조밀한 토큰 수준 감독 (dense token-level supervision)은 도메인 내 패턴에 대한 과적합 (overfitting)을 유발하고, 탐색 (exploration)을 억제하며, 교차 도메인 일반화 (cross-domain generalization)를 저해할 수 있다는 사실이 밝혀졌습니다. 또한, 이는 더 근본적인 문제인 특권 정보 누출 (privileged information leakage), 즉 학생 모델이 테스트 시점에는 사용할 수 없는 정답 의존적 지름길 (answer-dependent shortcuts)을 인코딩하는 문제를 야기합니다.
우리는 *교사 가이드의 선택적 채택 (selective adoption of teacher guidance)*이라는 아이디어를 통해 이러한 문제들을 해결하는 새로운 프레임워크인 DemoPSD를 소개합니다. DemoPSD는 교사의 전체 분포에 맞추는 대신, 교사 분포와 학생 분포의 가중 기하학적 결합인 *역-KL 바리센터 타겟 (reverse-KL barycenter target)*으로 학생을 유도합니다. 이는 교사로부터의 학습과 학생 고유의 추론 능력 보존 사이의 균형을 자연스럽게 맞춥니다. 우리는 두 분포 사이의 차이를 측정하며, 이러한 불일치 (discrepancy)를 사용하여 각 토큰 위치에서의 혼합 (blending)을 적응적으로 제어합니다.
우리는 DemoPSD가 (1) 누출 감쇄 (leakage attenuation), 즉 특권 정보 누출의 효과적인 완화와 (2) 탐색 보존 (exploration preservation), 즉 조밀한 토큰 수준 증류 하에서도 탐색 능력을 유지함을 증명적으로 보여줍니다. 4개의 과학 분야에 걸친 SciKnowEval에서의 광범위한 실험 결과, DemoPSD는 더 높은 학습 엔트로피 (training entropy)를 유지하면서도 GRPO 및 SDPO보다 뛰어난 성능을 보였으며, 분포 외 (out-of-distribution) GPQA 벤치마크에서도 견고한 일반화 성능을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기