자기 증류 (Self-Distillation)에서 피드백 정렬 (Feedback Alignment)의 역할
요약
자기 증류(Self-distillation) 과정에서 피드백 정렬의 중요성을 연구한 논문입니다. 단계별 비평(Step-aligned critique)이 이진 보상이나 참조 솔루션보다 모델 성능 향상에 훨씬 효과적임을 입증했습니다.
핵심 포인트
- 단계별 비평이 GRPO 대비 16.11포인트 높은 성능을 기록함
- 피드백과 추론 경로 간의 구조적 정렬이 자기 증류의 핵심 동력임
- 참조 솔루션 조건화는 불필요한 토큰 변화를 유도하는 한계가 있음
- 실패하는 토큰만을 타겟팅하는 피드백이 모델 성능 최적화에 유리함
이전 시도에 대한 피드백과 같은 추가적인 컨텍스트 (Context)를 언어 모델 (Language Model)에 조건화 (Conditioning)하는 것은 일반적으로 모델의 응답을 개선합니다. 자기 증류 (Self-distillation)는 컨텍스트가 존재하지 않을 때도 이러한 개선 사항을 유지하도록 모델을 학습시킵니다. 이 방법은 두 가지 설정 하에서 모델의 출력 분포 (Output distribution)를 일치시킴으로써 작동합니다: 질문만을 보는 학생 (Student) 모델과 컨텍스트까지 함께 보는 자기 교사 (Self-teacher) 모델입니다. 따라서 모델이 무엇을 배우는지는 자기 교사가 어떤 컨텍스트를 받느냐에 달려 있지만, 이러한 컨텍스트의 설계는 여전히 대부분 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 고정된 비평가 (Frozen critic)의 피드백을 바탕으로 솔버 (Solver)를 학습시킴으로써 자기 증류를 위한 컨텍스트 설계를 연구합니다. 우리는 세 가지 조건을 비교합니다: (i) 이진 보상 (Binary reward, GRPO), (ii) 참조 솔루션 (Reference solution), 그리고 (iii) 솔버의 추론 경로 (Reasoning trace)에 정렬된 단계별 비평 (Step-by-step critique). 단계 정렬 비평 (Step-aligned critique)은 가장 큰 이득을 가져왔으며, GRPO보다 16.11포인트, 참조 솔루션 조건부 자기 증류보다 5.27포인트 더 높은 성능을 보였습니다 (Avg@12). 토큰별 이점 (Per-token advantage) 분석은 그 이유를 밝혀줍니다: 단계 정렬 피드백은 추론이 실패하는 토큰만을 타겟팅하여 올바른 동작은 그대로 유지합니다. 반면, 참조 솔루션에 조건화하는 것은 대안적인 유도 과정이 필연적으로 문구와 접근 방식에서 차이가 나기 때문에, 모델이 모든 토큰(심지어 올바른 단계에서도)에서 동작을 변경하도록 압박합니다. 이는 피드백과 솔버의 추론 사이의 구조적 정렬 (Structural alignment)이 자기 증류 효과의 핵심 동력임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기