능력 선택적 부분 공간 투영을 통한 자기 정책 증류 (Self-Policy Distillation via Capability-Selective

자기 증류 (Self-distillation)는 대규모 언어 모델 (LLMs)이 스스로 생성한 결과물로 학습함으로써 모델을 부트스트랩 (bootstrap) 합니다. 그러나 기존 방법들은 스스로 생성한 출력물을 선별하기 위해 외부 신호 (예: 정답 여부 필터링, 실행 피드백, 보상 탐색)에 의존하는데, 이는 비용이 많이 들 뿐만 아니라 가장 뛰어난 성능을 보이는 프런티어 모델 (frontier models)의 경우에는 사용이 불가능합니다. 또는 선별 과정을 완전히 생략하고 모든 원시 출력물 (raw outputs)로 학습하기도 하는데, 이러한 접근 방식은 종종 특정 도메인에 국한되어 일반화하기 어렵습니다. 두 방식 모두 공통적인 근본적 약점을 공유하고 있는데, 이는 스스로 생성한 출력물이 작업 관련 능력 (task-relevant capability)을 스타일 패턴, 형식적 산물 (formatting artifacts), 모델 특유의 오류와 같은 다른 요소들과 뒤섞어 놓음으로써, 개선하고자 하는 특정 능력에 대한 신호를 희석시킨다는 점입니다. 본 논문에서는 외부 신호 없이도 일반화 가능하며 능력 선택적인 Self-Policy Distillation (SPD)를 제안합니다. 구체적으로, SPD는 정답을 결정하는 토큰 (correctness-defining tokens)에 대한 모델 자체의 그래디언트 (gradients)로부터 저차원 능력 부분 공간 (low-rank capability subspace)을 추출하고, 자기 생성 과정 중 키-값 (KV) 활성화 (activations)를 이 부분 공간으로 투영하며, 표준 차기 토큰 예측 손실 (next-token prediction loss)을 사용하여 결과물인 원시 출력물로 미세 조정 (fine-tuning)을 수행합니다. 코드 생성, 수학적 추론, 다지선다형 질의응답 (multiple-choice QA)에 걸친 광범위한 실험을 통해, SPD가 외부 신호가 없는 최첨단 (state-of-the-art) 자기 증류 방법보다 최대 13% 향상된 성능을 보이며, 사전 학습된 베이스라인 (pre-trained baselines)보다 최대 16% 향상된 성능을 달성함을 보여줍니다. 특히, SPD는 도메인 외 일반화 (out-of-domain generalization) 설정에서 15% 더 나은 성능을 달성하며 탁월한 일반화 능력을 입증합니다.

Insights

능력 선택적 부분 공간 투영을 통한 자기 정책 증류 (Self-Policy Distillation via Capability-Selective

요약

핵심 포인트

댓글

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트