본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 15:53

변분 정책 증류 (Variational Policy Distillation)를 통한 언어 피드백으로부터의 학습

요약

기존 강화학습(RLVR)은 희소한 결과 신호 때문에 복잡한 추론 작업에서 어려움을 겪어왔으며, 기존의 온-정책 자기 증류 방법들은 고정된 교사 모델에 의존하여 학습이 정체되는 한계가 있었습니다. 본 논문에서는 언어 피드백으로부터의 학습을 변분 기대-최대화(Variational Expectation-Maximization, EM) 문제로 공식화한 '변분 정책 증류(Variational Policy Distillation, VPD)' 프레임워크를 제안합니다. VPD는 E-단계에서 교사를 능동적으로 개선하고 텍스트 피드백을 동적 목표 토큰 분포로 변환하며, M-단계에서 학생이 이를 내재화하여 수동적 증류의 한계를 극복하고 성능을 향상시킵니다.

핵심 포인트

  • VPD는 언어 피드백 학습을 Variational Expectation-Maximization (EM) 문제로 공식화합니다.
  • E-step에서는 적응형 신뢰 영역 업데이트를 통해 교사를 능동적으로 개선하여 텍스트 피드백을 동적 목표 토큰 분포로 변환합니다.
  • M-step에서 학생은 자신의 온-정책 롤아웃 상에 이 조밀한 분포 가이드를 내재화합니다.
  • VPD는 기존의 RLVR 및 자기 증류 베이스라인보다 우수한 성능을 보이며, 피드백 주도형 학습의 한계를 입증했습니다.

검증 가능한 보상으로부터의 강화학습 (RLVR)은 희소한 결과 신호 (sparse outcome signals)로 인해 어려움을 겪으며, 이는 복잡한 추론 작업에서 심각한 탐색 병목 현상을 초래합니다. 최근의 온-정책 (on-policy) 자기 증류 (self-distillation) 방법들은 언어 피드백을 활용하여 조밀한 토큰 수준의 감독 (token-level supervision)을 생성함으로써 이를 해결하려고 시도합니다. 그러나 이러한 접근 방식은 피드백을 해석하기 위해 고정되고 수동적인 교사 (teacher) 모델에 의존합니다. 학생 (student) 정책이 향상됨에 따라 교사의 제로샷 (zero-shot) 평가 능력은 정체되며, 결국 추가적인 학습을 중단시킵니다. 이를 극복하기 위해, 우리는 언어 피드백으로부터의 학습을 변분 기대-최대화 (Variational Expectation-Maximization, EM) 문제로 공식화하는 프레임워크인 변분 정책 증류 (Variational Policy Distillation, VPD)를 제안합니다. VPD는 두 정책을 함께 공진화시킵니다. E-단계 (E-step)에서는 적응형 신뢰 영역 (adaptive trust-region) 업데이트를 통해 궤적 결과 (trajectory outcomes)에 대해 교사를 능동적으로 개선하며, 텍스트 피드백을 동적으로 개선된 목표 토큰 분포 (target token distribution)로 변환합니다. M-단계 (M-step)에서는 학생이 자신의 온-정책 롤아웃 (on-policy rollouts) 상에서 이러한 조밀한 분포 가이드를 내재화합니다. 텍스트 비평으로부터 실행 가능한 신호를 추출하는 교사의 능력을 지속적으로 향상시킴으로써, VPD는 수동적 증류의 한계를 극복합니다. 과학적 추론 및 코드 생성 작업에 대한 다양한 진단 피드백 소스를 통해 평가했을 때, VPD는 표준 RLVR 및 기존의 자기 증류 베이스라인 모두를 일관되게 능가합니다. 마지막으로, 엄격한 수학적 추론 및 콜드 스타트 (cold-start) 환경에서 우리 프레임워크를 스트레스 테스트함으로써, 순수 환경 주도형 RL과 비교하여 피드백 주도형 자기 증류의 근본적인 한계를 밝힙니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0