arXiv논문2026. 06. 09. 11:52

SG-OPD: 부호 일관성 게이팅(Sign-Consistency Gating) 및 단계적 교사 샘플링(Phased Teacher

요약

SG-OPD는 온폴리시 증류(OPD) 과정에서 발생하는 궤적 불일치와 토큰 신뢰성 문제를 해결하기 위한 새로운 방법론을 제안합니다. 부호 일관성 게이팅과 단계적 교사 샘플링을 통해 수학적 추론 성능을 크게 향상시켰습니다.

핵심 포인트

온폴리시 증류의 두 가지 핵심 가정(궤적 정렬, 토큰 신뢰성) 문제 해결
이진 검증기를 활용한 부호 일관성 게이트 도입
콜드 스타트 시점을 위한 단계적 교사 샘플링 기법 제안
수학적 추론 벤치마크에서 표준 OPD 대비 유의미한 성능 향상 입증

온폴리시 증류 (On-policy distillation, OPD)는 더 강력한 교사(Teacher)로부터 제공되는 조밀한 토큰별 감독(per-token supervision)을 통해 학생(Student) 모델을 자신의 궤적(trajectories) 상에서 학습시키며, 종종 오프폴리시 증류 (off-policy distillation) 및 표준 강화학습 (reinforcement learning)보다 뛰어난 성능을 보입니다. 그러나 우리는 OPD의 효과가 실제 상황에서 자주 깨지는 두 가지 가정에 암묵적으로 의존하고 있음을 발견했습니다: 바로 학생과 교사 사이의 궤적 수준 정렬 (trajectory-level alignment), 그리고 교사 선호도의 균일한 토큰 수준 신뢰성 (uniform token-level reliability)입니다. 따라서 우리는 두 가지 상호 보완적인 입도(granularities)에서 교사에 대한 신뢰 신호로 이진 검증기 (binary verifier)를 사용하는 SG-OPD (Sign-Gated On-Policy Distillation)를 제안합니다. 단계적 교사 샘플링 (phased teacher sampling)은 콜드 스타트 (cold-start) 시점에 검증기가 승인한 교사의 롤아웃 (rollouts)을 혼합하며, 부호 일관성 게이트 (sign-consistency gate)는 교사가 검증기의 올바른 방향과 일치하는 토큰에서는 증류 업데이트를 외삽 (extrapolate)하고, 일치하지 않는 토큰에서는 보간 (interpolate)합니다. 경쟁 수준의 수학적 추론 벤치마크에 대한 실험 결과, SG-OPD는 표준 OPD를 지속적으로 능가하며, 샘플당 평균 1.98, 질문당 평균 7.50의 성능 향상을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SG-OPD: 부호 일관성 게이팅(Sign-Consistency Gating) 및 단계적 교사 샘플링(Phased Teacher

요약

핵심 포인트

댓글