본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 14:05

능력 선택적 부분 공간 투영을 통한 자기 정책 증류 (Self-Policy Distillation via Capability-Selective

요약

외부 신호 없이 모델의 그래디언트와 KV 활성화를 활용해 특정 능력을 선택적으로 학습하는 SPD(Self-Policy Distillation) 기법을 제안합니다. 이 방식은 스타일이나 오류를 배제하고 핵심 능력만을 추출하여 모델의 성능과 일반화 능력을 크게 향상시킵니다.

핵심 포인트

  • 외부 피드백 없이도 가능한 능력 선택적 자기 증류(SPD) 제안
  • 그래디언트를 통해 저차원 능력 부분 공간 추출 및 KV 활성화 투영
  • 코드 생성, 수학, QA 등 다양한 도메인에서 성능 대폭 향상
  • 도메인 외 일반화 성능에서 기존 방식 대비 15% 우위 달성

자기 증류 (Self-distillation)는 대규모 언어 모델 (LLMs)이 스스로 생성한 결과물로 학습함으로써 모델을 부트스트랩 (bootstrap) 합니다. 그러나 기존 방법들은 스스로 생성한 출력물을 선별하기 위해 외부 신호 (예: 정답 여부 필터링, 실행 피드백, 보상 탐색)에 의존하는데, 이는 비용이 많이 들 뿐만 아니라 가장 뛰어난 성능을 보이는 프런티어 모델 (frontier models)의 경우에는 사용이 불가능합니다. 또는 선별 과정을 완전히 생략하고 모든 원시 출력물 (raw outputs)로 학습하기도 하는데, 이러한 접근 방식은 종종 특정 도메인에 국한되어 일반화하기 어렵습니다. 두 방식 모두 공통적인 근본적 약점을 공유하고 있는데, 이는 스스로 생성한 출력물이 작업 관련 능력 (task-relevant capability)을 스타일 패턴, 형식적 산물 (formatting artifacts), 모델 특유의 오류와 같은 다른 요소들과 뒤섞어 놓음으로써, 개선하고자 하는 특정 능력에 대한 신호를 희석시킨다는 점입니다. 본 논문에서는 외부 신호 없이도 일반화 가능하며 능력 선택적인 Self-Policy Distillation (SPD)를 제안합니다. 구체적으로, SPD는 정답을 결정하는 토큰 (correctness-defining tokens)에 대한 모델 자체의 그래디언트 (gradients)로부터 저차원 능력 부분 공간 (low-rank capability subspace)을 추출하고, 자기 생성 과정 중 키-값 (KV) 활성화 (activations)를 이 부분 공간으로 투영하며, 표준 차기 토큰 예측 손실 (next-token prediction loss)을 사용하여 결과물인 원시 출력물로 미세 조정 (fine-tuning)을 수행합니다. 코드 생성, 수학적 추론, 다지선다형 질의응답 (multiple-choice QA)에 걸친 광범위한 실험을 통해, SPD가 외부 신호가 없는 최첨단 (state-of-the-art) 자기 증류 방법보다 최대 13% 향상된 성능을 보이며, 사전 학습된 베이스라인 (pre-trained baselines)보다 최대 16% 향상된 성능을 달성함을 보여줍니다. 특히, SPD는 도메인 외 일반화 (out-of-domain generalization) 설정에서 15% 더 나은 성능을 달성하며 탁월한 일반화 능력을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0