SG-OPD: 부호 일관성 게이팅(Sign-Consistency Gating) 및 단계적 교사 샘플링(Phased Teacher
요약
SG-OPD는 온폴리시 증류(OPD) 과정에서 발생하는 궤적 불일치와 토큰 신뢰성 문제를 해결하기 위한 새로운 방법론을 제안합니다. 부호 일관성 게이팅과 단계적 교사 샘플링을 통해 수학적 추론 성능을 크게 향상시켰습니다.
핵심 포인트
- 온폴리시 증류의 두 가지 핵심 가정(궤적 정렬, 토큰 신뢰성) 문제 해결
- 이진 검증기를 활용한 부호 일관성 게이트 도입
- 콜드 스타트 시점을 위한 단계적 교사 샘플링 기법 제안
- 수학적 추론 벤치마크에서 표준 OPD 대비 유의미한 성능 향상 입증
온폴리시 증류 (On-policy distillation, OPD)는 더 강력한 교사(Teacher)로부터 제공되는 조밀한 토큰별 감독(per-token supervision)을 통해 학생(Student) 모델을 자신의 궤적(trajectories) 상에서 학습시키며, 종종 오프폴리시 증류 (off-policy distillation) 및 표준 강화학습 (reinforcement learning)보다 뛰어난 성능을 보입니다. 그러나 우리는 OPD의 효과가 실제 상황에서 자주 깨지는 두 가지 가정에 암묵적으로 의존하고 있음을 발견했습니다: 바로 학생과 교사 사이의 궤적 수준 정렬 (trajectory-level alignment), 그리고 교사 선호도의 균일한 토큰 수준 신뢰성 (uniform token-level reliability)입니다. 따라서 우리는 두 가지 상호 보완적인 입도(granularities)에서 교사에 대한 신뢰 신호로 이진 검증기 (binary verifier)를 사용하는 SG-OPD (Sign-Gated On-Policy Distillation)를 제안합니다. 단계적 교사 샘플링 (phased teacher sampling)은 콜드 스타트 (cold-start) 시점에 검증기가 승인한 교사의 롤아웃 (rollouts)을 혼합하며, 부호 일관성 게이트 (sign-consistency gate)는 교사가 검증기의 올바른 방향과 일치하는 토큰에서는 증류 업데이트를 외삽 (extrapolate)하고, 일치하지 않는 토큰에서는 보간 (interpolate)합니다. 경쟁 수준의 수학적 추론 벤치마크에 대한 실험 결과, SG-OPD는 표준 OPD를 지속적으로 능가하며, 샘플당 평균 1.98, 질문당 평균 7.50의 성능 향상을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기