본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

탈선 시 되돌아가기: LLM 추론 증류(Reasoning Distillation)에서의 이중 노출 편향(Dual Exposure Biases)

요약

LLM 추론 증류 과정에서 발생하는 오프-폴리시의 노출 편향과 온-폴리시의 역방향 노출 편향이라는 '이중 노출 편향' 문제를 분석합니다. 이를 해결하기 위해 학생 모델의 생성 과정을 모니터링하다가 오류 발생 시 안전한 지점으로 되돌아가 교사의 가이드를 받는 MOTAB 파이프라인을 제안합니다. 실험 결과, MOTAB는 추론 작업에서 평균 약 3%의 성능 향상을 달성하며 이중 편향 문제를 효과적으로 완화했습니다.

핵심 포인트

  • 기존 오프-폴리시 증류는 교사의 궤적만 사용하여 학생의 추론 문맥 불일치(노출 편향)를 유발함
  • 온-폴리시 증류는 학생의 최적화되지 않은 문맥이 교사에게 영향을 주는 역방향 노출 편향을 초래함
  • MOTAB는 적응형 안전 경계를 통해 학생의 생성을 모니터링하고 오류 시 백트래킹(Backtracking)을 수행함
  • MOTAB는 LIMO-v2 및 AceReason 데이터셋 실험을 통해 약 3%의 성능 향상을 입증함

대규모 언어 모델 (LLMs)은 긴 사고 사슬 (Chain-of-Thought, CoT)을 통해 복잡한 추론 작업에서 놀라운 성공을 거두었으나, 막대한 계산 오버헤드로 인해 실제 배포에 어려움을 겪고 있습니다. LLM 추론 증류 (Reasoning Distillation)는 강력한 교사 모델 (Teacher models)의 추론 능력을 소형 학생 모델 (Student models)로 전이함으로써 이 문제를 해결합니다. 그러나 기존의 증류 패러다임은 근본적인 딜레마에 직면해 있습니다. 전형적인 오프-폴리시 (Off-policy) 증류는 교사가 생성한 골든 궤적 (Golden trajectories)만을 엄격하게 사용하며, 이로 인해 훈련 분포와 학생이 생성한 추론 문맥 (Inference contexts) 사이의 불일치로 인한 노출 편향 (Exposure bias)을 겪게 되고, 이는 긴 CoT 추론 과정에서 오류 연쇄 (Error cascades)로 이어집니다. 이를 해결하기 위해 온-폴리시 (On-policy) 증류는 학생이 스스로의 궤적을 탐색하도록 허용하지만, 우리는 이것이 본질적으로 상호적인 역방향 노출 편향 (Reversed exposure bias)을 유발한다는 것을 입증했습니다. 즉, 교사 모델 또한 학생이 생성한 최적화되지 않은 문맥 (Sub-optimal contexts)을 조건으로 할 때 긍정적인 가이드를 제공하는 데 어려움을 겪습니다. 이러한 이중 노출 편향 (Dual exposure biases) 문제를 해결하기 위해, 우리는 새로운 LLM 추론 증류 파이프라인인 '탈선 시 궤적 모니터링 및 되돌아가기 (Monitoring Trajectories and Backtracking when it strays, MOTAB)'를 제안합니다. 구체적으로, MOTAB는 적응형 안전 경계 (Adaptive safety boundary)를 기준으로 학생의 온-폴리시 생성을 동적으로 모니터링합니다. 생성이 경계를 벗어나 임계값을 초과하면, MOTAB는 마지막 안전한 상태로 되돌아가고(Backtrack) 교사의 개입을 활용하여 경로를 수정합니다. 이 접근 방식은 노출 편향을 완화하기 위해 학생의 미세한 오류를 본질적으로 허용하는 동시에, 역방향 노출 편향을 피하기 위해 최적화되지 않은 문맥을 방지합니다. LIMO-v2 및 AceReason 데이터셋에 대한 광범위한 실험을 통해 MOTAB가 이중 노출 편향을 효과적으로 완화하며, 추론 작업에서 약 3%의 평균 성능 향상을 가져온다는 것을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0