본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

AVSD: 합의(Consensus)와 교사 특화 특권 신호(Teacher-Specific Privileged Signals)의 균형을 통한

요약

AVSD(Adaptive-View Self-Distillation)는 자기 증류 과정에서 발생하는 교사와 학생 간의 정보 비대칭성 문제를 해결하기 위해 제안된 새로운 학습 방법론입니다. 여러 특권 정보 뷰 사이의 공통된 합의 신호와 각 뷰의 특화된 잔차 신호를 분리하여, 안정적이면서도 효과적인 토큰 수준의 감독을 제공합니다. 수학 및 코드 생성 벤치마크 실험을 통해 기존의 단일 뷰 자기 증류 및 GRPO 방식보다 뛰어난 성능 향상을 입증했습니다.

핵심 포인트

  • AVSD는 여러 특권 정보 뷰를 활용하여 교사와 학생 간의 정보 비대칭성 문제를 완화함
  • 교차 뷰 합의(cross-view consensus) 신호와 뷰 특화 잔차(view-specific residual) 신호를 분리하여 학습을 재구성함
  • 합의 신호와 일치하는 범위 내에서만 잔차 신호를 선택적으로 추가하여 업데이트의 안정성을 확보함
  • 수학 경시 대회(AIME, HMMT) 및 코드 생성(Codeforces) 벤치마크에서 기존 베이스라인 대비 유의미한 성능 향상을 달성함

자기 증류 (Self-distillation)는 동일한 모델을 학생(student)과 교사(teacher)로 모두 사용하여, 교사가 학생이 사용할 수 없는 특권 정보 (privileged information)를 조건으로 하여 자신의 궤적으로부터 온-폴리시 (on-policy) 학습을 할 수 있게 합니다. 이러한 정보는 솔루션, 시연 (demonstrations), 피드백 (feedback) 또는 최종 정답과 같이 다양한 유형이나 뷰 (views)로 제공될 수 있습니다. 이러한 설정은 별도의 외부 모델에 의존하지 않고도 조밀한 토큰 수준의 피드백 (token-level feedback)을 제공하지만, 근본적인 비대칭성을 생성합니다. 즉, 교사는 추론 시점에 학생이 접근할 수 없는 뷰 특화 정보 (view-specific information)에 의존할 수 있습니다. 더욱이, 가장 좋은 유형의 특권 정보는 종종 작업에 따라 달라지므로, 단일 교사 뷰를 선택하는 것은 어렵습니다. 본 연구에서는 여러 특권 정보 뷰를 사용하는 새로운 자기 증류 방법인 AVSD (Adaptive-View Self-Distillation)를 도입하여 이 두 가지 과제를 동시에 해결합니다. AVSD는 안정적인 교차 뷰 합의 (cross-view consensus)와 뷰 특화 잔차 신호 (view-specific residual signals)를 분리함으로써 토큰 수준의 감독 (token-level supervision)을 재구성합니다. AVSD는 뷰 전반에 걸쳐 공유되는 합의 신호 (consensus signal)를 식별하여 신뢰할 수 있는 업데이트 방향을 제공한 다음, 해당 신호가 합의 방향과 일치하고 합의 신호에 비례하는 수준을 유지할 때만 뷰 특화 잔차 신호를 선택적으로 추가하여 업데이트 크기를 조정합니다. 수학 경시 대회 벤치마크 (AIME24, AIME25, HMMT25)에서의 실험 결과, AVSD는 단일 뷰 자기 증류 (single-view self-distillation) 베이스라인과 GRPO 모두를 일관되게 능가하였으며, Qwen3-8B와 Qwen3-4B에서 각각 가장 강력한 베이스라인 대비 평균 Avg@8에서 3.1%와 2.2%의 이득을 달성했습니다. 또한, Qwen3-8B를 사용한 코드 생성 (code-generation) 벤치마크 (Codeforces, LiveCodeBench v6)에서 AVSD는 단일 뷰 자기 증류 베이스라인보다 평균 2.4% 높은 성능을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0