On-Policy Distillation의 위치 편향(Position Bias)에 대하여
요약
On-Policy Distillation(OPD) 과정에서 발생하는 위치 편향 문제를 분석하고, 이를 해결하기 위한 IW-OPD 방법론을 제안합니다. 학생 모델의 롤아웃이 길어질수록 교사 분포와 멀어지는 현상을 제약 최적화 관점에서 규명했습니다.
핵심 포인트
- OPD의 표준 KL 목적 함수는 모든 토큰에 동일한 가중치를 부여하여 위치 편향을 유발함
- 롤아웃 후반부로 갈수록 교사 분포와의 차이가 커져 감독 품질이 저하됨
- IW-OPD는 누적된 분포 차이에 따라 토큰별 가중치를 동적으로 조절함
- IW-OPD는 표준 OPD 대비 빠른 수렴 속도와 높은 학습 효율을 입증함
- AIME-2025 벤치마크에서 성능을 최대 6.9포인트 향상시킴
On-Policy Distillation (OPD)는 교사(teacher)로부터의 조밀한 토큰 수준(token-level) 감독을 통해 표준 강화학습 (reinforcement learning)의 학습 효율을 향상시킵니다. OPD의 표준 KL 목적 함수 (KL objective)에서는 토큰 수준의 손실(losses)이 균등하게 평균화되며, 이는 모든 토큰에 동일한 가중치를 부여함을 의미합니다. 그러나 우리는 모든 토큰이 동일하게 생성되지 않는다는 것을 발견했습니다. 학생(student)의 롤아웃 (rollouts)이 길어질수록 교사의 분포 (distribution)에서 더 멀어지게 되며, 이는 후반부 위치에서 감독 품질의 저하로 이어집니다. 결과적으로, 토큰의 처음 30%만을 사용하는 OPD는 모든 토큰을 사용하는 것과 유사한 성능을 낼 수 있는 반면, 마지막 30%의 토큰만을 사용하는 OPD는 거의 아무것도 학습하지 못합니다. 본 연구에서는 제약 최적화 (constrained optimization)의 관점을 통해 이 문제에 대한 원칙적인 이해를 제공합니다. 이러한 통찰을 바탕으로, 우리는 Importance-Weighted On-Policy Distillation (IW-OPD)를 도출합니다. IW-OPD에서는 각 토큰에 할당되는 가중치가 학생과 교사 분포 사이의 누적된 차이 (accumulated discrepancy)에 따라 결정되며, 이로 인해 편차가 큰 후반부 토큰의 가중치는 낮추고 초기 토큰의 가중치는 자연스럽게 높입니다. 우리는 IW-OPD가 OPD보다 훨씬 빠르게 수렴하며 더 나은 학습 효율을 보인다는 것을 입증하였고, 동일 규모 및 교차 규모 (cross-scale) 설정 모두에서 표준 OPD보다 더 나은 최종 성능을 달성하였으며, AIME-2025에서 성능을 최대 6.9포인트 향상시켰음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기