arXiv논문2026. 06. 01. 12:36

On-Policy Distillation을 위해 전체 Rollout이 반드시 필요한가?

요약

On-Policy Distillation(OPD)의 높은 계산 비용과 초기 학습 불안정성을 해결하기 위한 새로운 연구를 소개합니다. Rollout horizon을 제어하는 POPD와 TOPD 전략을 통해 학습 효율을 높이고 자원 소모를 획기적으로 줄일 수 있음을 입증했습니다.

핵심 포인트

OPD 학습 시 전체 Rollout이 반드시 필요하지 않음을 식별
POPD 전략으로 수학적 추론 학습 효율을 최대 3배 향상
TOPD 전략으로 Rollout의 10%만 사용해도 대등한 성능 달성
실행 시간 및 메모리 사용량의 실질적인 절감 효과 확인

On-Policy Distillation (OPD)는 학생 모델(student)이 생성한 Rollout (rollout)을 따라 밀도 높은 교사(teacher) 피드백을 제공하며, 긴 호흡의 추론(long-horizon reasoning)을 위한 유망한 사후 학습(post-training) 패러다임으로 부상했습니다. 그러나 표준적인 OPD는 일반적으로 학습 과정에서 전체 Rollout을 생성하는데, 이는 계산 비용이 많이 들 뿐만 아니라 특히 학습 초기 단계에서 학생 모델을 Rollout의 후반부 위치에 있는 신뢰할 수 없는 교사 피드백에 노출시킬 위험이 있습니다. 우리는 Rollout horizon (rollout horizon)을 OPD의 학습 효율성에 상당한 영향을 미치는 핵심 병목 지점으로 식별했습니다. 검증 가능한 보상을 사용하는 강화학습 (RLVR, Reinforcement Learning with Verifiable Rewards)과 달리, OPD는 학습 신호를 제공하기 위해 완전한 궤적(trajectory)이나 최종 정답 보상을 필요로 하지 않습니다. 이러한 관찰은 효과적인 OPD를 위해 항상 전체 Rollout이 필요한 것은 아닐 수 있음을 시사합니다. 이 통찰에 착안하여, 우리는 두 가지 간단한 horizon 제어 전략을 제안합니다: 학습 과정에서 Rollout horizon을 점진적으로 확장하는 Progressive OPD (POPD), 그리고 신뢰할 수 있는 절단된(truncated) Rollout에 대해 영구적으로 Distillation (distillation)을 수행하는 Truncated OPD (TOPD)입니다. 수학적 추론에 대한 실험 결과, POPD는 OPD의 학습 효율을 최대 3배까지 향상시키는 반면, TOPD는 Rollout horizon의 10%만을 사용하고도 OPD의 성능과 대등한 수준을 보여주어 실질적인 실행 시간(wall-clock time)과 메모리 사용량을 크게 절감함을 확인했습니다. 이러한 결과는 Rollout horizon을 제어하는 것이 더 효율적인 OPD로 나아가는 단순하고 실용적인 경로임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

On-Policy Distillation을 위해 전체 Rollout이 반드시 필요한가?

요약

핵심 포인트

댓글