arXiv논문2026. 05. 22. 11:21

적성에 맞춘 교육: LLM 추론을 위한 방향 적응형 자기 증류 (Direction-Adaptive Self-Distillation)

요약

LLM의 추론 능력을 향상시키기 위해 엔트로피 기반의 방향 적응형 자기 증류(DASD) 기법을 제안합니다. 기존 OPSD가 탐색 능력을 저해하는 문제를 해결하기 위해, 토큰의 불확실성에 따라 교사 모델을 따르거나 멀어지도록 조절하여 추론 성능을 최적화합니다.

핵심 포인트

기존 OPSD의 예측 불확실성 억제 및 추론 저하 문제 해결
엔트로피 기반의 방향성 감독(DASD) 메커니즘 제안
높은 엔트로피 토큰은 탐색 보존을 위해 교사로부터 이탈 유도
낮은 엔트로피 토큰은 실행 안정화를 위해 교사 모방 유도
6개 수학 추론 벤치마크에서 기존 베이스라인 대비 우수한 성능 달성

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 모델이 스스로의 교사 역할을 하는 신흥 LLM 사후 학습 (post-training) 패러다임입니다. 참조 추적 (reference trace) 또는 힌트와 같은 특권 정보 (privileged information)를 조건으로 하여, 동일한 정책 (policy)이 자신의 롤아웃 (rollouts)에 대해 조밀한 토큰 수준 (token-level) 감독을 제공합니다. 그러나 최근 연구에 따르면, OPSD는 탐색 (exploration)과 가설 수정 (hypothesis revision)을 지원하는 예측 불확실성 (predictive uncertainty)을 억제함으로써 복잡한 추론 능력을 저하시키는 것으로 나타났습니다. 우리의 토큰 수준 분석에 따르면, 이러한 실패는 서로 다른 불확실성 수준을 가진 토큰들에 대해 동일한 방향의 교사 감독을 적용하기 때문에 발생합니다. 즉, 특권 정보를 가진 자기 교사 (self-teacher)에 대한 순응은 높은 엔트로피 (high entropy) 상태에서의 탐색을 억제하는 반면, 교사로부터의 이탈은 낮은 엔트로피 (low entropy) 상태에서의 단계 정확도 (step accuracy)를 저하시킵니다. 이에 따라, 우리는 특권 자기 증류를 균일한 교사 모방에서 엔트로피 기반의 방향성 감독 (entropy-routed directional supervision)으로 재구성하는 extbf{방향 적응형 자기 증류} ( extbf{Direction-Adaptive Self-Distillation}, extbf{DASD})를 제안합니다. 높은 엔트로피를 가진 토큰은 탐색을 보존하기 위해 특권 교사로부터 멀어지도록 밀어내고, 낮은 엔트로피를 가진 토큰은 단계 수준의 실행 (step-level execution)을 안정화하기 위해 교사 쪽으로 끌어당깁니다. 6개의 수학적 추론 벤치마크에 걸쳐, DASD는 강력한 RLVR 및 자기 증류 베이스라인 모델들보다 우수한 macro Avg@16 성능을 달성했습니다. Pass@$k$, 추론 건강도 (reasoning-health), 그리고 일반화 (generalization) 분석은 이러한 평균적인 이득이 단계 수준의 실행을 희생하지 않으면서 탐색을 보존함으로써 얻어진 것임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

적성에 맞춘 교육: LLM 추론을 위한 방향 적응형 자기 증류 (Direction-Adaptive Self-Distillation)

요약

핵심 포인트

댓글