arXiv논문2026. 05. 13. 17:37

OGLS-SD: 결과 기반 로짓 조향을 통한 온정책 자체 증류 (On-Policy Self-Distillation with

요약

본 논문은 언어 모델이 온정책(on-policy) 궤적을 따라 진행하며 특권적인 교사 분포를 증류하는 '온정책 자체 증류(OPSD)' 기법을 연구합니다. 기존 OPSD는 교사와 학생 응답 간의 불일치 문제, 특히 반성 유발 편향이나 응답 템플릿으로 인한 오류가 발생할 수 있음을 지적했습니다. 이를 해결하기 위해, 본 연구는 검증 가능한 결과 보상을 활용하여 성공 및 실패 궤적을 대조하고 교사 로짓을 보정하는 '결과 기반 로짓 조향(Outcome-based Logit Steering)' 프레임워크인 OGLS-SD를 제안합니다. OGLS-SD는 결과 수준의 정확성과 토큰 수준의 지도를 결합하여 자체 증류 과정을 안정화하고 추론 성능을 향상시킵니다.

핵심 포인트

온정책 자체 증류(OPSD)는 언어 모델의 추론 능력 향상을 위한 방법이지만, 교사 응답과 학생 응답 간의 불일치 문제가 존재한다.
기존 OPSD 방식은 반성 유발 편향이나 템플릿 효과로 인해 잘못된 토큰 수준 지도를 초래할 위험이 있다.
제안하는 OGLS-SD는 검증 가능한 결과 보상(verifiable outcome rewards)을 활용하여 성공/실패 궤적을 대조한다.
OGLS-SD는 결과 수준의 정확성(outcome-level correctness)과 로짓 조향을 결합함으로써 자체 증류를 안정화하고 성능을 향상시킨다.

우리는 언어 모델이 자신만의 온정책(on-policy) 궤적을 따라 진행하면서 특권적인 교사 분포를 증류함으로써 추론 능력을 향상시키는 {온정책 자체 증류}(on-policy self-distillation, OPSD)를 연구합니다. OPSD는 성능 향상을 보였음에도 불구하고, 우리는 교사와 학생 응답 사이에 흔하지만 종종 간과되는 불일치(mismatch)가 있음을 파악했습니다. 즉, 자기 반성적 교사 응답은 반성 유발 편향(reflection-induced bias) 및 응답 템플릿에 의해 이동할 수 있으며, 이는 잘못 보정된 토큰 수준의 지도 학습을 초래합니다. 이 문제를 완화하기 위해, 우리는 검증 가능한 결과 보상(verifiable outcome rewards)을 활용하여 성공적이고 실패한 온정책 궤적을 대조하고 교사 로짓을 보정하는 결과 기반 로짓 조향 프레임워크인 extmethodname를 제안합니다. extmethodname는 결과 수준의 정확성(outcome-level correctness)과 로짓 조향을 통한 밀집된 토큰 수준의 지도를 결합함으로써, 표준 OPSD 및 다른 변형 모델 대비 다양한 벤치마크에서 자체 증류를 안정화하고 추론 성능을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

OGLS-SD: 결과 기반 로짓 조향을 통한 온정책 자체 증류 (On-Policy Self-Distillation with

요약

핵심 포인트

댓글