arXiv논문2026. 06. 10. 11:36

자기 증류 (Self-Distillation)에서 피드백 정렬 (Feedback Alignment)의 역할

요약

자기 증류(Self-distillation) 과정에서 피드백 정렬의 중요성을 연구한 논문입니다. 단계별 비평(Step-aligned critique)이 이진 보상이나 참조 솔루션보다 모델 성능 향상에 훨씬 효과적임을 입증했습니다.

핵심 포인트

단계별 비평이 GRPO 대비 16.11포인트 높은 성능을 기록함
피드백과 추론 경로 간의 구조적 정렬이 자기 증류의 핵심 동력임
참조 솔루션 조건화는 불필요한 토큰 변화를 유도하는 한계가 있음
실패하는 토큰만을 타겟팅하는 피드백이 모델 성능 최적화에 유리함

이전 시도에 대한 피드백과 같은 추가적인 컨텍스트 (Context)를 언어 모델 (Language Model)에 조건화 (Conditioning)하는 것은 일반적으로 모델의 응답을 개선합니다. 자기 증류 (Self-distillation)는 컨텍스트가 존재하지 않을 때도 이러한 개선 사항을 유지하도록 모델을 학습시킵니다. 이 방법은 두 가지 설정 하에서 모델의 출력 분포 (Output distribution)를 일치시킴으로써 작동합니다: 질문만을 보는 학생 (Student) 모델과 컨텍스트까지 함께 보는 자기 교사 (Self-teacher) 모델입니다. 따라서 모델이 무엇을 배우는지는 자기 교사가 어떤 컨텍스트를 받느냐에 달려 있지만, 이러한 컨텍스트의 설계는 여전히 대부분 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 고정된 비평가 (Frozen critic)의 피드백을 바탕으로 솔버 (Solver)를 학습시킴으로써 자기 증류를 위한 컨텍스트 설계를 연구합니다. 우리는 세 가지 조건을 비교합니다: (i) 이진 보상 (Binary reward, GRPO), (ii) 참조 솔루션 (Reference solution), 그리고 (iii) 솔버의 추론 경로 (Reasoning trace)에 정렬된 단계별 비평 (Step-by-step critique). 단계 정렬 비평 (Step-aligned critique)은 가장 큰 이득을 가져왔으며, GRPO보다 16.11포인트, 참조 솔루션 조건부 자기 증류보다 5.27포인트 더 높은 성능을 보였습니다 (Avg@12). 토큰별 이점 (Per-token advantage) 분석은 그 이유를 밝혀줍니다: 단계 정렬 피드백은 추론이 실패하는 토큰만을 타겟팅하여 올바른 동작은 그대로 유지합니다. 반면, 참조 솔루션에 조건화하는 것은 대안적인 유도 과정이 필연적으로 문구와 접근 방식에서 차이가 나기 때문에, 모델이 모든 토큰(심지어 올바른 단계에서도)에서 동작을 변경하도록 압박합니다. 이는 피드백과 솔버의 추론 사이의 구조적 정렬 (Structural alignment)이 자기 증류 효과의 핵심 동력임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기 증류 (Self-Distillation)에서 피드백 정렬 (Feedback Alignment)의 역할

요약

핵심 포인트

댓글