arXiv논문2026. 06. 18. 11:46

자신의 실수로부터 배우기: 자기 증류 (Self-Distillation)를 위한 학습 가능한 미세 반성 궤적 (Micro-Reflective

요약

자기 증류(Self-distillation) 과정에서 모델의 오류를 구체적으로 교정하기 위해 TAPO(Trajectory-Augmented Policy Optimization)를 제안합니다. 정답과 오답 궤적을 대조하여 미세 반성 교정 신호를 구축함으로써 LLM의 추론 능력을 향상시킵니다.

핵심 포인트

기존 자기 증류의 암시적 분포 정렬 한계 극복
TAPO를 통한 명시적 궤적 구축 및 미세 반성 교정 도입
정답/오답 롤아웃의 대조적 구조를 활용한 학습 궤적 생성
AIME 등 수학 벤치마크에서 GRPO 대비 우수한 성능 입증

자기 증류 (Self-distillation)는 모델 자신의 롤아웃 (rollouts)을 학습 신호로 사용하여 대규모 언어 모델 (LLM)의 추론 능력을 향상시키며, 일반적으로 특권적인 타겟 분포 (privileged target distribution)를 향한 KL 발산 (KL divergence)을 최소화하는 암시적 로짓 수준 정렬 (implicit logit-level alignment)을 통해 이루어집니다. 그러나 이러한 감독 (supervision)은 통제되지 않은 샘플링을 통해 생성되기 때문에, 모델의 구체적인 오류에 대한 진단적 통찰이나 개별적인 실패 패턴에 대한 교정 가이드를 제공하지 못합니다. 결과적으로, 모델은 추론이 어디서 왜 실패하는지를 정확히 짚어주는 세밀한 교정을 받는 대신, 특권적인 분포를 모방하는 법을 배우게 됩니다. 본 논문에서는 암시적 분포 정렬 (implicit distributional alignment)에서 명시적 궤적 구축 (explicit trajectory construction)으로 자기 증류를 발전시키는 궤적 증강 정책 최적화 (Trajectory-Augmented Policy Optimization, TAPO)를 제안합니다. 강화학습 (RL) 훈련 과정에서 모델은 동일한 쿼리에 대해 정답과 오답 롤아웃을 모두 생성하며, TAPO는 이러한 대조적 구조 (contrastive structure)를 활용하여 미세 반성 교정 (micro-reflective corrections)을 구축합니다. 이는 모델의 오류가 있는 추론을 실패 지점까지 유지한 다음, 동일한 샘플링 그룹 내의 정답 참조 (correct reference)에 의해 유도된 자연어 진단 및 교정된 추론을 삽입하는 새로운 학습 궤적입니다. 각 궤적은 학습자의 자체적인 접두사 (prefix)와 솔루션에 고정되어 있으므로, 교정 신호는 KL 기반 방식이 부과하는 위치별 정렬 (position-wise alignment)보다 모델의 온-폴리시 분포 (on-policy distribution)를 더 높은 수준으로 보존합니다. 이러한 궤적을 통합하기 위해, TAPO는 모델의 능력 경계 (capability boundary)에서 난이도 인지 후보 선택 (difficulty-aware candidate selection)과 그래디언트 오염 (gradient contamination)을 방지하기 위한 분리된 어드밴티지 추정 (decoupled advantage estimation)을 도입합니다. AIME 2024, AIME 2025, HMMT 2025에 대한 실험 결과, TAPO는 동일한 훈련 단계 수에서 GRPO 대비 일관된 성능 향상을 달성함을 보여줍니다. 추가 분석을 통해 TAPO가 1차 추론 (first-pass reasoning)과 오류 교정 효과 (error-correction effectiveness)를 모두 강화함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자신의 실수로부터 배우기: 자기 증류 (Self-Distillation)를 위한 학습 가능한 미세 반성 궤적 (Micro-Reflective

요약

핵심 포인트

댓글