arXiv논문2026. 06. 15. 08:21

RLCSD: 대조적 온폴리시 자기 증류를 이용한 강화학습 (Reinforcement Learning with Contrastive

요약

RLCSD는 온폴리시 자기 증류 과정에서 발생하는 '특권 유도 스타일 드리프트' 문제를 해결하기 위한 새로운 강화학습 방법론입니다. 정답과 오답 힌트 간의 간극을 대조함으로써 모델이 스타일 변화 대신 작업 수행 토큰에 집중하도록 유도합니다.

핵심 포인트

특권 컨텍스트 사용 시 발생하는 스타일 드리프트 현상 규명
대조 학습을 통해 작업 수행 토큰에 집중된 학습 신호 생성
Qwen3 및 Olmo-3 모델 실험을 통해 GRPO 대비 우수성 입증
기존 OPSD 방법론과 결합 가능한 범용적 대조 원리 제안

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 모델 자신의 분포를 특권적 컨텍스트(privileged context, 일반적으로 검증된 솔루션) 하에서 생성되는 분포와 정렬함으로써 추론 모델에 대해 조밀한 토큰 수준의 감독(supervision)을 제공합니다. 그러나 우리는 이 분포 차이(distributional gap)로부터 추출된 학습 신호가 작업 수행 토큰(task-bearing tokens)보다는 스타일 토큰(style tokens)에 집중된다는 것을 보여줍니다. 이는 힌트가 주어진 모델이 더 직접적이고 짧은 출력을 생성하는 경향이 있기 때문입니다. 우리는 이러한 병리적 현상을 extit{특권 유도 스타일 드리프트 (privilege-induced style drift)}라고 명명하며, 이는 학습을 불안정하게 만들거나 응답 길이를 축소시키는 원인이 됩니다. 이를 해결하기 위해, 우리는 extbf{RLCSD} (Reinforcement Learning with Contrastive on-policy Self-Distillation)를 제안합니다. RLCSD는 정답 힌트 하에서의 교사-학생(teacher-student) 간극과 오답 힌트 하에서의 간극을 대조함으로써 이러한 드리프트를 완화합니다. 이를 통해 정답 여부와 관계없이 힌트 조건화(conditioning)가 유도하는 경향이 있는 스타일 변화를 억제하고, 작업 수행 토큰에 더 집중된 신호를 생성합니다. 수학 및 논리 추론 전반에 걸쳐 Qwen3 (1.7B/4B/8B) 및 Olmo-3-7B-Think를 대상으로 한 실험 결과, RLCSD가 GRPO 및 기존 OPSD 방법론보다 일관되게 우수한 성능을 보임을 확인했습니다. 나아가 우리는 이 대조 원리(contrastive principle)가 범용적임을 보여줍니다. 즉, 기존 OPSD 방법론에 결합하여 성능을 향상시킬 수 있으며, 그 근본적인 통찰은 더 넓은 범위의 교차 모델 온폴리시 증류(cross-model on-policy distillation) 설정으로 확장됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

RLCSD: 대조적 온폴리시 자기 증류를 이용한 강화학습 (Reinforcement Learning with Contrastive

요약

핵심 포인트

댓글