AVSD: 합의(Consensus)와 교사 특화 특권 신호(Teacher-Specific Privileged Signals)의 균형을 통한

자기 증류 (Self-distillation)는 동일한 모델을 학생(student)과 교사(teacher)로 모두 사용하여, 교사가 학생이 사용할 수 없는 특권 정보 (privileged information)를 조건으로 하여 자신의 궤적으로부터 온-폴리시 (on-policy) 학습을 할 수 있게 합니다. 이러한 정보는 솔루션, 시연 (demonstrations), 피드백 (feedback) 또는 최종 정답과 같이 다양한 유형이나 뷰 (views)로 제공될 수 있습니다. 이러한 설정은 별도의 외부 모델에 의존하지 않고도 조밀한 토큰 수준의 피드백 (token-level feedback)을 제공하지만, 근본적인 비대칭성을 생성합니다. 즉, 교사는 추론 시점에 학생이 접근할 수 없는 뷰 특화 정보 (view-specific information)에 의존할 수 있습니다. 더욱이, 가장 좋은 유형의 특권 정보는 종종 작업에 따라 달라지므로, 단일 교사 뷰를 선택하는 것은 어렵습니다. 본 연구에서는 여러 특권 정보 뷰를 사용하는 새로운 자기 증류 방법인 AVSD (Adaptive-View Self-Distillation)를 도입하여 이 두 가지 과제를 동시에 해결합니다. AVSD는 안정적인 교차 뷰 합의 (cross-view consensus)와 뷰 특화 잔차 신호 (view-specific residual signals)를 분리함으로써 토큰 수준의 감독 (token-level supervision)을 재구성합니다. AVSD는 뷰 전반에 걸쳐 공유되는 합의 신호 (consensus signal)를 식별하여 신뢰할 수 있는 업데이트 방향을 제공한 다음, 해당 신호가 합의 방향과 일치하고 합의 신호에 비례하는 수준을 유지할 때만 뷰 특화 잔차 신호를 선택적으로 추가하여 업데이트 크기를 조정합니다. 수학 경시 대회 벤치마크 (AIME24, AIME25, HMMT25)에서의 실험 결과, AVSD는 단일 뷰 자기 증류 (single-view self-distillation) 베이스라인과 GRPO 모두를 일관되게 능가하였으며, Qwen3-8B와 Qwen3-4B에서 각각 가장 강력한 베이스라인 대비 평균 Avg@8에서 3.1%와 2.2%의 이득을 달성했습니다. 또한, Qwen3-8B를 사용한 코드 생성 (code-generation) 벤치마크 (Codeforces, LiveCodeBench v6)에서 AVSD는 단일 뷰 자기 증류 베이스라인보다 평균 2.4% 높은 성능을 보였습니다.

Insights

AVSD: 합의(Consensus)와 교사 특화 특권 신호(Teacher-Specific Privileged Signals)의 균형을 통한

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.