탈선 시 되돌아가기: LLM 추론 증류(Reasoning Distillation)에서의 이중 노출 편향(Dual Exposure Biases)

대규모 언어 모델 (LLMs)은 긴 사고 사슬 (Chain-of-Thought, CoT)을 통해 복잡한 추론 작업에서 놀라운 성공을 거두었으나, 막대한 계산 오버헤드로 인해 실제 배포에 어려움을 겪고 있습니다. LLM 추론 증류 (Reasoning Distillation)는 강력한 교사 모델 (Teacher models)의 추론 능력을 소형 학생 모델 (Student models)로 전이함으로써 이 문제를 해결합니다. 그러나 기존의 증류 패러다임은 근본적인 딜레마에 직면해 있습니다. 전형적인 오프-폴리시 (Off-policy) 증류는 교사가 생성한 골든 궤적 (Golden trajectories)만을 엄격하게 사용하며, 이로 인해 훈련 분포와 학생이 생성한 추론 문맥 (Inference contexts) 사이의 불일치로 인한 노출 편향 (Exposure bias)을 겪게 되고, 이는 긴 CoT 추론 과정에서 오류 연쇄 (Error cascades)로 이어집니다. 이를 해결하기 위해 온-폴리시 (On-policy) 증류는 학생이 스스로의 궤적을 탐색하도록 허용하지만, 우리는 이것이 본질적으로 상호적인 역방향 노출 편향 (Reversed exposure bias)을 유발한다는 것을 입증했습니다. 즉, 교사 모델 또한 학생이 생성한 최적화되지 않은 문맥 (Sub-optimal contexts)을 조건으로 할 때 긍정적인 가이드를 제공하는 데 어려움을 겪습니다. 이러한 이중 노출 편향 (Dual exposure biases) 문제를 해결하기 위해, 우리는 새로운 LLM 추론 증류 파이프라인인 '탈선 시 궤적 모니터링 및 되돌아가기 (Monitoring Trajectories and Backtracking when it strays, MOTAB)'를 제안합니다. 구체적으로, MOTAB는 적응형 안전 경계 (Adaptive safety boundary)를 기준으로 학생의 온-폴리시 생성을 동적으로 모니터링합니다. 생성이 경계를 벗어나 임계값을 초과하면, MOTAB는 마지막 안전한 상태로 되돌아가고(Backtrack) 교사의 개입을 활용하여 경로를 수정합니다. 이 접근 방식은 노출 편향을 완화하기 위해 학생의 미세한 오류를 본질적으로 허용하는 동시에, 역방향 노출 편향을 피하기 위해 최적화되지 않은 문맥을 방지합니다. LIMO-v2 및 AceReason 데이터셋에 대한 광범위한 실험을 통해 MOTAB가 이중 노출 편향을 효과적으로 완화하며, 추론 작업에서 약 3%의 평균 성능 향상을 가져온다는 것을 입증했습니다.

Insights

탈선 시 되돌아가기: LLM 추론 증류(Reasoning Distillation)에서의 이중 노출 편향(Dual Exposure Biases)

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.