DemoPSD: 불일치 조절 정책 자기 증류 (Disagreement-Modulated Policy Self-Distillation)

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 단일 모델이 서로 다른 수준의 정보 접근 권한을 가진 교사(teacher)와 학생(student) 역할을 동시에 수행하며 대규모 언어 모델 (LLMs)의 추론 능력을 학습시키는 실용적인 방법으로 부상했습니다. 그러나 최근 연구에 따르면, 특권 정보 (privileged information)를 조건으로 하는 교사의 조밀한 토큰 수준 감독 (dense token-level supervision)은 도메인 내 패턴에 대한 과적합 (overfitting)을 유발하고, 탐색 (exploration)을 억제하며, 교차 도메인 일반화 (cross-domain generalization)를 저해할 수 있다는 사실이 밝혀졌습니다. 또한, 이는 더 근본적인 문제인 특권 정보 누출 (privileged information leakage), 즉 학생 모델이 테스트 시점에는 사용할 수 없는 정답 의존적 지름길 (answer-dependent shortcuts)을 인코딩하는 문제를 야기합니다.

우리는 *교사 가이드의 선택적 채택 (selective adoption of teacher guidance)*이라는 아이디어를 통해 이러한 문제들을 해결하는 새로운 프레임워크인 DemoPSD를 소개합니다. DemoPSD는 교사의 전체 분포에 맞추는 대신, 교사 분포와 학생 분포의 가중 기하학적 결합인 *역-KL 바리센터 타겟 (reverse-KL barycenter target)*으로 학생을 유도합니다. 이는 교사로부터의 학습과 학생 고유의 추론 능력 보존 사이의 균형을 자연스럽게 맞춥니다. 우리는 두 분포 사이의 차이를 측정하며, 이러한 불일치 (discrepancy)를 사용하여 각 토큰 위치에서의 혼합 (blending)을 적응적으로 제어합니다.

우리는 DemoPSD가 (1) 누출 감쇄 (leakage attenuation), 즉 특권 정보 누출의 효과적인 완화와 (2) 탐색 보존 (exploration preservation), 즉 조밀한 토큰 수준 증류 하에서도 탐색 능력을 유지함을 증명적으로 보여줍니다. 4개의 과학 분야에 걸친 SciKnowEval에서의 광범위한 실험 결과, DemoPSD는 더 높은 학습 엔트로피 (training entropy)를 유지하면서도 GRPO 및 SDPO보다 뛰어난 성능을 보였으며, 분포 외 (out-of-distribution) GPQA 벤치마크에서도 견고한 일반화 성능을 입증했습니다.

Insights

DemoPSD: 불일치 조절 정책 자기 증류 (Disagreement-Modulated Policy Self-Distillation)

요약

핵심 포인트

댓글

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

왜 전환(Transformation)의 70%가 실패하는가 — 그리고 사람 중심의 해결책

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

왜 전환(Transformation)의 70%가 실패하는가 — 그리고 사람 중심의 해결책