arXiv논문2026. 05. 07. 17:54

보상 정규화를 통한 선호 기반 자기 증류: KL 매칭을 넘어

요약

본 논문은 기존 온폴리시 자기 증류(on-policy self-distillation) 방법이 KL 매칭에 의존하여 겪는 훈련 불안정성 및 탐험적 다양성 부족 문제를 해결하기 위해 '보상 정규화 기반 자기 증류(PBSD)'를 제안합니다. PBSD는 교사 분포 직접 매칭 대신, 보상 가중치된 목표 정책을 생성하는 보상 정규화 목적 함수를 활용하여 온폴리시 학생 샘플링을 유지하면서도 성능과 안정성을 개선합니다. 실험 결과, PBSD는 다양한 벤치마크에서 기존 방법들보다 일관되게 우수한 평균 성능을 달성했습니다.

핵심 포인트

기존 자기 증류 방식의 한계: KL 매칭 의존으로 인한 훈련 불안정성과 탐험적 다양성 부족 문제를 지적함.
새로운 접근법 제안: '보상 정규화 기반 자기 증류(PBSD)'를 통해 온폴리시 자기 증류에 접근함.
핵심 메커니즘: 교사 분포 직접 매칭 대신, 보상 가중치된 목표 정책을 생성하는 보상 정규화 목적 함수를 사용함.
성능 개선 입증: PBSD는 수학적 추론 및 도구 사용 벤치마크에서 기존 베이스라인 대비 일관되게 가장 강력한 평균 성능을 달성했음을 보여줌.

On-policy distillation(온폴리시 증류) 은 강화 학습 (RL) 의 효율적인 대안으로, 밀도 있는 토큰 수준의 훈련 신호를 제공합니다. 그러나 외부 교사가 더 강력해야 한다는 의존성은 최근 온폴리시 자기 증류 (on-policy self-distillation) 연구로 이어졌으며, 여기서 동일한 모델이 다른 프롬프트 컨텍스트 하에서 동시에 교사이자 학생 역할을 수행합니다. 하지만 기존의 자기 증류 방법은 학습을 주로 강화된 컨텍스트를 가진 교사 모델에 대한 KL 매칭으로 축소하고 있습니다. 이 접근법은 훈련 불안정성을 겪는 경우가 많고, 추론 성능을 시간이 지남에 따라 저하시킬 수 있습니다. 또한, 동일한 모델에서 프롬프트 증류를 통해 자기 증류하는 것은 진정한 외부 교사가 제공하는 탐험적 다양성 (exploratory diversity) 을 결여하고 있습니다.

이러한 한계를 해결하기 위해 우리는 고정된 교사 모델의 KL 매칭을 넘어선 extbf{P}reference- extbf{B}ased extbf{S}elf- extbf{D}istillation ( extbf{PBSD}) 을 제안합니다. PBSD 는 보상 정규화 (reward-regularization) 관점에서 온폴리시 자기 증류에 다시 접근합니다. 교사 분포를 직접 매칭하는 대신, 우리는 분석적 최적해가 보상 가중치된 교사 분포인 보상 정규화 목적 함수를 유도하며, 이 목적 함수 하에서 원래 교사보다 증명적으로 우월한 목표 정책 (target policy) 을 생성합니다. 실용적으로는 PBSD 는 교사와 학생 샘플 간의 선호 차이를 최적화하면서 온폴리시 학생 샘플링을 유지합니다.

우리는 유도된 선호 학습 문제의 통계적 분석을 통해 이 프레임워크를 지원하며, 설정에서 외부 교사로부터 학습하는 것보다 온폴리시 자기 증류가 선호할 때를 형식적으로 확립합니다. 수학적 추론 및 도구 사용 벤치마크에 대한 여러 모델 규모의 실험은 PBSD 가 비교 가능한 베이스라인 중 일관되게 가장 강력한 평균 성능을 달성함을 보여주며, 이전 자기 증류 베이스라인보다 훈련 안정성을 개선하면서 토큰 효율성을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 정규화를 통한 선호 기반 자기 증류: KL 매칭을 넘어

요약

핵심 포인트

댓글