본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:00

발산 지점에서의 신용 할당 국소화: LLM 추론을 위한 경로 조건부 자기 증류 (Path-Conditioned Self-Distillation)

요약

긴 추론 과정에서 발생하는 불분명한 신용 할당 문제를 해결하기 위해 사후 자기 증류(HSD) 기법을 제안합니다. 성공적인 피어 롤아웃을 활용해 발산 지점에 집중된 조밀한 신호를 제공함으로써 모델의 추론 성능을 높입니다.

핵심 포인트

  • 기존 강화학습의 토큰 수준 신용 할당 문제 해결
  • 성공적인 피어 롤아웃을 활용한 Hindsight Self-Distillation 제안
  • 발산 지점에 집중된 정밀한 신용 신호 생성
  • Qwen3 모델 실험 결과 AIME 등 간결한 답변 태스크에서 탁월한 성능 입증

검증 가능한 보상 (verifiable rewards)을 이용한 강화학습 (Reinforcement learning)은 각 롤아웃 (rollout)에 단일 스칼라 값을 할당하므로, 긴 추론 과정에서 토큰 수준의 신용 할당 (credit assignment)이 불분명하게 남게 됩니다. 온-폴리시 자기 증류 (On-policy self-distillation)는 동일한 모델이 특권 정보 (privileged information)에 조건화된 교사 (teacher) 역할을 수행하게 하여 조밀한 토큰별 신호를 생성함으로써 이 문제를 해결합니다. 하지만 일반적으로 선택되는 정답 (ground-truth answer)은 종점의 단서일 뿐입니다. 답변이 간결한 태스크 (terse-answer tasks)의 경우, 교사는 경로 수준의 가이드가 가장 중요한 중간 위치에서 침묵하게 됩니다. 우리는 현재 학습 그룹에서 추출된 성공적인 피어 롤아웃 (peer rollout)에 교사를 조건화하는 사후 자기 증류 (Hindsight Self-Distillation, HSD)를 제안합니다. 이러한 피어는 성공 조건부 정책 (success-conditioned policy)으로부터 추출된 정확한 샘플이며, 추가적인 샘플링 롤아웃을 필요로 하지 않습니다. 최종 답변만을 제공하는 대신 전체적인 성공적 지속 (successful continuation)을 제공함으로써, 결과적인 신용 신호 (credit signal)는 실패한 롤아웃과 성공적인 피어 사이의 발산 지점 (divergence position)에 집중됩니다. 수학 및 코드 벤치마크에서의 Qwen3-8B 및 Qwen3-32B를 대상으로 한 실험 결과, HSD는 GRPO 변형 모델 및 온-폴리시 증류 (on-policy distillation) 베이스라인 대비 최고의 성능을 달성하였으며, AIME와 같이 답변이 간결한 태스크에서 가장 큰 성능 향상을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0