본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 17:37

OGLS-SD: 결과 기반 로짓 조향을 통한 온정책 자체 증류 (On-Policy Self-Distillation with

요약

본 논문은 언어 모델이 온정책(on-policy) 궤적을 따라 진행하며 특권적인 교사 분포를 증류하는 '온정책 자체 증류(OPSD)' 기법을 연구합니다. 기존 OPSD는 교사와 학생 응답 간의 불일치 문제, 특히 반성 유발 편향이나 응답 템플릿으로 인한 오류가 발생할 수 있음을 지적했습니다. 이를 해결하기 위해, 본 연구는 검증 가능한 결과 보상을 활용하여 성공 및 실패 궤적을 대조하고 교사 로짓을 보정하는 '결과 기반 로짓 조향(Outcome-based Logit Steering)' 프레임워크인 OGLS-SD를 제안합니다. OGLS-SD는 결과 수준의 정확성과 토큰 수준의 지도를 결합하여 자체 증류 과정을 안정화하고 추론 성능을 향상시킵니다.

핵심 포인트

  • 온정책 자체 증류(OPSD)는 언어 모델의 추론 능력 향상을 위한 방법이지만, 교사 응답과 학생 응답 간의 불일치 문제가 존재한다.
  • 기존 OPSD 방식은 반성 유발 편향이나 템플릿 효과로 인해 잘못된 토큰 수준 지도를 초래할 위험이 있다.
  • 제안하는 OGLS-SD는 검증 가능한 결과 보상(verifiable outcome rewards)을 활용하여 성공/실패 궤적을 대조한다.
  • OGLS-SD는 결과 수준의 정확성(outcome-level correctness)과 로짓 조향을 결합함으로써 자체 증류를 안정화하고 성능을 향상시킨다.

우리는 언어 모델이 자신만의 온정책(on-policy) 궤적을 따라 진행하면서 특권적인 교사 분포를 증류함으로써 추론 능력을 향상시키는 {온정책 자체 증류}(on-policy self-distillation, OPSD)를 연구합니다. OPSD는 성능 향상을 보였음에도 불구하고, 우리는 교사와 학생 응답 사이에 흔하지만 종종 간과되는 불일치(mismatch)가 있음을 파악했습니다. 즉, 자기 반성적 교사 응답은 반성 유발 편향(reflection-induced bias) 및 응답 템플릿에 의해 이동할 수 있으며, 이는 잘못 보정된 토큰 수준의 지도 학습을 초래합니다. 이 문제를 완화하기 위해, 우리는 검증 가능한 결과 보상(verifiable outcome rewards)을 활용하여 성공적이고 실패한 온정책 궤적을 대조하고 교사 로짓을 보정하는 결과 기반 로짓 조향 프레임워크인 extmethodname를 제안합니다. extmethodname는 결과 수준의 정확성(outcome-level correctness)과 로짓 조향을 통한 밀집된 토큰 수준의 지도를 결합함으로써, 표준 OPSD 및 다른 변형 모델 대비 다양한 벤치마크에서 자체 증류를 안정화하고 추론 성능을 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0