근접 발달 영역 정책 최적화 (Zone of Proximal Policy Optimization): 그래디언트가 아닌 프롬프트 내의 교사
요약
지식 증류 시 발생하는 일반화 성능 저하와 강화학습의 데이터 폐기 문제를 해결하기 위해 ZPPO 알고리즘을 제안합니다. 교사의 지식을 그래디언트가 아닌 프롬프트 내에 주입하여 학생 모델의 근접 발달 영역을 효과적으로 학습시킵니다.
핵심 포인트
- ZPPO는 교사의 응답을 프롬프트 내에 포함하여 온-폴리시 가정을 유지함
- BCQ와 NCQ 프롬프트 구성을 통해 학생의 실패 모드를 학습에 활용
- 프롬프트 리플레이 버퍼를 사용하여 근접 발달 영역 내 학습 증폭
- Qwen3.5 모델 실험 결과, 기존 GRPO 및 증류 방식보다 우수한 성능 입증
지식 증류 (Knowledge distillation)는 교사의 능력을 작은 학생 모델로 전달하지만, 학생 모델이 매우 작은 규모일 때는 취약합니다. 훨씬 더 큰 교사의 로짓 (logits)을 모방하도록 학생을 강제하는 것은 교사의 가장 날카로운 모드 (modes)에 집중하게 만들어, 학습 코퍼스 이외의 벤치마크 제품군에 대한 일반화 성능을 해칩니다. 강화학습 (Reinforcement learning, RL)은 학생 자신의 롤아웃 (rollouts)을 기반으로 학습함으로써 로짓 모방을 피합니다. 그러나 모든 롤아웃이 실패하여 어드밴티지 (advantage)가 0이 되고 조용히 폐기되는 질문들의 경우, 더 강력한 교사의 응답을 정책 그래디언트 (policy gradient)에 주입하는 것은 온-폴리시 (on-policy) 가정을 깨뜨리고 드리프트 (drift)를 유발합니다.
우리는 비고츠키 (Vygotsky)의 근접 발달 영역 (zone of proximal development)에서 영감을 얻어, 교사를 정책 그래디언트가 아닌 프롬프트 내에 유지하는 근접 발달 영역 정책 최적화 (Zone of Proximal Policy Optimization, ZPPO)를 소개합니다. 어려운 질문에 대해 ZPPO는 두 가지 재구성된 프롬프트를 구축합니다: 이진 후보 포함 질문 (Binary Candidate-included Question, BCQ)은 하나의 정답 교사 응답과 하나의 오답 학생 응답을 학생이 구별해야 하는 익명화된 후보로 쌍을 이룹니다. 그리고 부정 후보 포함 질문 (Negative Candidate-included Question, NCQ)은 학생의 잘못된 롤아웃들을 하나의 프롬프트로 집계하여 공통된 실패 모드 (failure modes)를 드러냅니다. 프롬프트 리플레이 버퍼 (prompt replay buffer)는 각 어려운 질문이 졸업하거나(학생의 해당 질문에 대한 평균 롤아웃 정확도가 50%에 도달) 유한한 용량 제한으로 인해 FIFO 방식으로 제거될 때까지 순환시키며, 학생의 현재 근접 발달 영역 내에서 BCQ와 NCQ를 증폭시킵니다.
27B 교사를 사용하여 네 가지 학생 규모 (0.8B-9B)의 Qwen3.5 제품군을 대상으로, 시각-언어 모델 (vision-language models)로 사후 학습(post-trained)시키고 31개의 벤치마크 세트 (16 VLM, 10 LLM, 5 Video)에서 평가한 결과, ZPPO는 오프-폴리시 (off-policy) 및 온-폴리시 (on-policy) 증류와 GRPO보다 뛰어난 성능을 보였으며, 규모가 가장 작을 때 가장 큰 성능 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기