arXiv논문2026. 06. 25. 11:41

샘플링된 데몬스트레이션을 이용한 온폴리시 자기 증류(On-Policy Self-Distillation)가 출력 다양성을 감소시키는 현상에 대하여

요약

온폴리시 자기 증류(On-policy self-distillation)가 모델의 출력 다양성을 감소시키고 pass@k 성능 향상을 저해하는 현상을 분석합니다. 샘플링된 데몬스트레이션 사용 시 발생하는 복합적인 편향이 모델의 분포를 특정 모드에 집중시켜 다양성을 해친다는 점을 이론적으로 규명했습니다.

핵심 포인트

자기 증류 과정에서 롤아웃 다양성 감소 및 pass@k 곡선 평탄화 현상 발견
샘플링된 데몬스트레이션이 모델 자체의 편향을 피드백에 전달하는 문제 지적
조건부 상호 정보량 점수가 기본 분포를 특정 방향으로 기울게 함을 이론적 분석
자기 증류 모델은 평균 성능은 높으나 분포 외(OOD) 설정 및 다양성 측면에서 취약

온폴리시 자기 증류 (On-policy self-distillation)는 단일 모델을 교사(teacher)와 학생(student) 모두로 사용하여 강력한 pass@1 정확도를 달성합니다. 이때 교사는 밀도 높은 토큰 수준의 피드백을 제공하기 위해 정답 데몬스트레이션 (demonstration)을 조건으로 합니다. 우리는 이것이 숨겨진 비용을 초래할 수 있음을 보여줍니다. 즉, 롤아웃 (rollout) 다양성이 감소하고 pass@k 곡선이 평탄해집니다 (즉, 더 많은 롤아웃을 생성해도 정확도가 향상되지 않음). 우리는 이 현상이 샘플링된 데몬스트레이션을 사용하는 자기 증류 설계의 복합적인 편향 (compounding biases)에서 기인함을 추적합니다. 교사는 샘플링된 정답 롤아웃을 조건으로 하여 각 학생 롤아웃의 점수를 매기며, 모델 자체의 편향을 통해 피드백을 전달합니다. 우리는 최적의 자기 증류 정책을 이론적으로 분석하고, 이것이 학생의 롤아웃과 컨텍스트로 사용된 정답 롤아웃 사이의 점별 조건부 상호 정보량 (pointwise conditional mutual information) 점수에 의해 기본 분포를 기울게 만든다는 것을 보여줍니다. 동일하게 정답인 롤아웃들 사이의 확률 비율을 보존하는 이상적인 최적 온폴리시 강화학습 (RL)과 달리, 자기 증류는 기존의 확률 격차를 증폭시켜 이미 지배적인 모드 (modes)에 질량을 집중시킬 수 있습니다. 통제된 그래프 경로 찾기 작업과 과학 질문 답변 벤치마크에서, 자기 증류된 모델은 평균 성능 면에서 RL과 대등하거나 이를 능가하지만, 기능적 및 의미적 다양성은 실질적으로 낮게 나타나며 다양한 전략이 필요한 분포 외 (out-of-distribution) 설정에서는 실패합니다.

AI 자동 생성 콘텐츠

원문 바로가기

샘플링된 데몬스트레이션을 이용한 온폴리시 자기 증류(On-Policy Self-Distillation)가 출력 다양성을 감소시키는 현상에 대하여

요약

핵심 포인트

댓글