보상 감독에 대한 재고: 루브릭 조건부 자기 증류 (Rubric-Conditioned Self-Distillation)
요약
추론 언어 모델의 사후 학습 시 발생하는 노이즈와 스칼라 보상의 모호성을 해결하기 위한 '루브릭 조건부 자기 증류' 프레임워크를 제안합니다. 루브릭을 구조화된 피드백으로 활용하여 학생 모델이 스스로 샘플링한 궤적에 대해 토큰 수준의 정밀한 가이드를 제공합니다.
핵심 포인트
- 루브릭을 활용해 스칼라 보상보다 미세한 신용 할당(Credit Assignment) 가능
- 교사 모델에 루브릭을 조건화하여 토큰 수준의 가이드 제공
- 단일 참조 추론 과정에 의존하는 기존 증류 방식의 한계 극복
- 과학 추론 벤치마크에서 GRPO 및 OPSD 대비 성능 우위 입증
추론 언어 모델 (Reasoning Language Models)의 사후 학습 (Post-training)은 일반적으로 지도 증류 (Supervised Distillation)와 검증 가능한 보상을 이용한 강화학습 (Reinforcement Learning)에 의해 주도됩니다. 증류는 종종 획득 비용이 많이 들고 그 자체로 노이즈가 있거나, 불완전하거나, 부분적으로 틀릴 수 있는 사고 사슬 (Chain-of-Thought) 주석에 의존합니다. 최종 솔루션이 정답이더라도 불완전한 추론 과정 (Rationale)은 학습을 방해할 수 있습니다. 반면, 검증된 보상을 사용하는 강화학습은 일반적으로 평가 피드백을 스칼라 (Scalar) 신호로 압축하여, 응답의 어떤 측면을 개선해야 하는지를 모호하게 만듭니다. 우리는 온-폴리시 (On-policy) 자기 증류 (Self-distillation)를 위해 루브릭 (Rubric)을 구조화된 미세 조정 피드백으로 통합하는 프레임워크인 extbf{루브릭 조건부 자기 증류 (Rubric-Conditioned Self-Distillation)}를 제안합니다. 우리의 방법은 교사 모델 (Teacher Model)에 기준 수준의 루브릭을 조건화하고, 이를 사용하여 학생 모델 (Student Model)이 스스로 샘플링한 궤적 (Trajectories)에 대해 토큰 수준의 가이드를 제공하도록 합니다. 이러한 설계는 단일 참조 추론 과정 (Reference Rationale)을 유일한 감독 대상으로 취급하는 것을 피합니다. 대신, 루브릭은 강력한 응답이 충족해야 할 사항을 명시하여, 스칼라 보상 최적화 (Scalar Reward Optimization)보다 추론 과정에 대해 더 미세한 신용 할당 (Credit Assignment)을 가능하게 합니다. 우리는 먼저 작업별 루브릭 생성을 학습한 다음 루브릭 가이드 추론기를 학습하는 2단계 파이프라인으로 이 프레임워크를 구현합니다. 다양한 과학 추론 벤치마크 세트에서 평가한 결과, 루브릭 조건부 자기 증류가 루브릭 수준의 기준을 추론 과정에 대한 토큰 수준의 가이드로 효과적으로 변환하며, 평균적으로 GRPO를 1.0포인트, OPSD를 0.9포인트 앞지른다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기