arXiv논문2026. 06. 02. 10:14

분포 정렬 자기 증류(Distribution-Aligned Self-Distillation)를 통한 동적 토큰 선택 기반의 강건한 추론

요약

자기 증류 과정에서 발생하는 스타일 편향과 노이즈를 해결하기 위해 분포 정렬 자기 증류(DASD) 기법을 제안합니다. 답변 인지 참조 모델을 통해 유용한 논리적 지식은 보존하고, 분포에 맞지 않는 스타일 노이즈는 동적으로 필터링하여 추론 성능을 높입니다.

핵심 포인트

자기 증류 시 발생하는 스타일 편향 및 노이즈 문제 해결
DASD를 통한 유용한 논리적 지식 보존 및 스타일 드리프트 억제
수학, 코드, 상식 추론 벤치마크에서 기존 모델 대비 우수한 성능 입증
높은 퍼플렉시티(PPL) 토큰 제어를 통한 추론 강건성 향상

자기 증류 (Self-distillation)는 참조 답변 (reference answers)을 모델 자신의 분포 (distribution)와 더 잘 일치하는 학습 데이터로 다시 작성함으로써 학습 효율성을 향상시킵니다. 그러나 참조 답변은 또한 강력한 스타일 편향 (stylistic biases)을 유발하여, 생성 모델 (generative model)이 유용한 추론 패턴을 학습하기보다 표면적인 형태를 모방하게 만듭니다. 우리는 다시 작성된 데이터에 두 가지 뚜렷한 출처에서 기인한 다수의 높은 퍼플렉시티 (high-perplexity, PPL) 토큰이 포함되어 있음을 관찰했습니다: 유익한 지식 강화적 논리 교정 (knowledge-enhancing logical corrections)과 참조 모방으로 인해 유도된 해로운 스타일 드리프트 (stylistic drift)입니다. 이러한 모든 토큰을 동일하게 취급하면 기본 모델 (base model)의 원래 분포를 방해하고, 특히 어려운 추론 작업에서 성능을 저하시킬 수 있습니다. 이를 해결하기 위해, 우리는 답변 인지 참조 모델 (answer-aware reference model)을 사용하여 후보 토큰을 생성하고 기본 모델의 신뢰도 (confidence)에 따라 이를 동적으로 필터링하는 분포 정렬 자기 증류 (Distribution-Aligned Self-Distillation, DASD)를 제안합니다. DASD는 유용한 논리적 지식을 인코딩하는 토큰은 보존하는 동시에, 분포적으로 정렬되지 않은 스타일 노이즈 (style noise)는 억제합니다. 수학, 코드 및 상식 추론 벤치마크에 대한 실험 결과, DASD는 경쟁력 있는 베이스라인 (baselines) 모델들을 지속적으로 능가하고, 높은 PPL 토큰을 줄이며, 다양한 난이도의 작업 전반에서 강건성 (robustness)을 향상시킴을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

분포 정렬 자기 증류(Distribution-Aligned Self-Distillation)를 통한 동적 토큰 선택 기반의 강건한 추론

요약

핵심 포인트

댓글