arXiv논문2026. 05. 20. 10:56

CEPO: 대조적 증거 정책 최적화 (Contrastive Evidence Policy Optimization)를 이용한 RLVR 자기 증류

요약

CEPO(Contrastive Evidence Policy Optimization)는 RLVR 환경에서 결정적인 추론 토큰과 단순 채우기용 토큰을 구분하기 위해 제안된 새로운 자기 증류 방법론입니다. 정답과 오답 교사를 대조하여 진정한 추론 단계에만 정교한 보상을 할당함으로써, 기존 방식의 정보 유출 및 신호 약화 문제를 해결합니다. 실험 결과, 2B 및 4B 모델 규모에서 기존 GRPO 및 분포 매칭 방식보다 높은 수학적 추론 성능을 입증했습니다.

핵심 포인트

결정적 추론 토큰과 채우기용(filler) 토큰을 구분하여 신용 할당(credit assignment)의 정확도를 높임
정답뿐만 아니라 학습 배치 내 거부된 롤아웃을 활용한 오답 교사를 대조하여 추가 샘플링 비용 없이 학습 가능
기존 분포 매칭 자기 증류 방식(OPSD, SDPO)에서 발생하는 정보 유출 문제를 이론적·실증적으로 해결
2B 및 4B 모델의 멀티모달 수학적 추론 벤치마크에서 GRPO 대비 우수한 성능 달성

검증 가능한 보상 (Verifiable Rewards)을 사용하는 강화학습 (RLVR) 환경에서 모델이 정답을 생성할 때, 결정적인 추론 단계인지 아니면 문법적인 채우기용 토큰(filler)인지와 관계없이 모든 토큰은 동일한 보상 신호를 받게 됩니다. 이에 대한 자연스러운 해결책은 정답을 교사 (teacher)로 삼아 모델에 조건을 부여하고, 모델이 정답을 알고 있었더라면 다르게 생성했을 토큰을 식별하는 것입니다. 기존 연구에 따르면, 이러한 방식은 정답이 그래디언트 (gradient)로 유출되어 학습을 오염시키거나, 모델의 베이스라인(baseline) 대비 두 토큰 모두 동일하게 놀라움(surprising) 수치가 높게 나타나 결정적인 단계와 채우기용 토큰을 구분할 수 없는 약한 신호를 생성한다는 것을 보여주었습니다.

우리는 모든 토큰에서 더 날카로운 질문을 던지는 대조적 증거 정책 최적화 (Contrastive Evidence Policy Optimization, CEPO)를 제안합니다. 단순히 "정답이 이 토큰을 선호하는가?"라고 묻는 것이 아니라, "정답은 이 토큰을 선호하는 반면, 오답은 이 토큰을 선호하지 않는가?"라고 묻는 것입니다. 이 두 가지를 모두 만족하는 토큰은 진정한 추론 단계이며, 둘 다 만족하지 않는 토큰은 채우기용 토큰입니다. 오답 교사 (wrong-answer teacher)는 이미 학습 배치 (training batch) 내에 있는 거부된 롤아웃 (rejected rollouts)으로부터 구축되므로, 추가적인 샘플링 비용이 발생하지 않습니다.

우리는 CEPO가 기존의 최첨단 (state of the art) 기술이 가진 모든 구조적 안전 보장 (structural safety guarantees)을 계승하는 동시에, 결정적인 토큰에서의 신용 할당 (credit assignment)을 엄격하게 날카롭게 만들며, 채우기용 위치에서는 그 개선 효과가 정확히 사라진다는 것을 증명합니다. 실증적으로, CEPO는 동일한 학습 예산 하에서 2B 및 4B 규모의 5개 멀티모달 수학적 추론 벤치마크에서 각각 43.43%와 60.56%의 평균 정확도를 달성하였으며, 이는 GRPO의 41.17% 및 57.43%와 대조됩니다. 분포 매칭 자기 증류 (Distribution-matching self-distillation) 방법들 (OPSD, SDPO)은 학습되지 않은 베이스라인보다 낮은 성능을 보였으며, 이는 우리의 이론이 예측한 정보 유출 (information leakage)을 실증적으로 확인시켜 줍니다. 우리의 코드는 https://github.com/ahmedheakl/CEPO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CEPO: 대조적 증거 정책 최적화 (Contrastive Evidence Policy Optimization)를 이용한 RLVR 자기 증류

요약

핵심 포인트

댓글