arXiv논문2026. 06. 16. 12:26

Taylor-Calibrate: 하이브리드 선형 어텐션 증류를 위한 원칙적인 초기화 방법

요약

하이브리드 선형 어텐션 모델로의 효율적인 변환을 위한 새로운 초기화 방법론인 Taylor-Calibrate를 제안합니다. Taylor 전개를 활용해 교사 모델의 통계량을 기반으로 학생 모델의 파라미터를 설정함으로써, 증류 과정의 효율성을 극대화하고 성능을 대폭 개선합니다.

핵심 포인트

하이브리드 선형 어텐션 모델의 변환 시 발생하는 초기화 문제 해결
Taylor 가이드 기반의 통계량을 활용한 경량 초기화 방법론 제안
단순 변환 대비 최대 88배의 제로샷 성능 개선 달성
학습 토큰 소모량을 기존 방식 대비 최대 9.2배 절감

하이브리드 선형 어텐션 (Hybrid linear attention) 모델은 더 빠른 긴 문맥 추론 (long-context inference)을 위한 매력적인 경로를 제공합니다. 이 모델들은 Transformer 모델의 품질을 상당 부분 유지하면서도, 전체 소프트맥스 어텐션 (softmax attention)의 이차 비용 (quadratic cost)과 KV-캐시 (KV-cache) 부담을 줄여줍니다. 이러한 모델을 얻는 실질적인 방법은 새로운 아키텍처를 처음부터 사전 학습 (pretraining)하는 대신, 사전 학습된 Transformer를 변환하는 것이지만, 이 변환 과정은 여전히 취약합니다. 단순히 교사 (teacher) 어텐션 프로젝션 (projections)을 Gated DeltaNet (GDN) 학생 (student) 모델로 복사하는 것만으로는 새로운 순환 감쇠 (recurrent decay), 쓰기 (write), 그리고 출력 게이팅 (output-gating) 역학을 지정할 수 없습니다. 그 결과, 변환된 모델은 종종 좋지 않은 역학 체제 (dynamical regime)에서 시작하게 되며, 남은 교사 모델의 동작을 학습하기보다는 초기화를 복구하는 데 많은 증류 토큰 (distillation tokens)을 소비해야 합니다. 우리는 하이브리드 GDN 학생 모델을 위한 경량 초기화 방법인 Taylor-Calibrate를 제안합니다. 이 방법은 Taylor 가이드 기반의 교사 어텐션 통계량을 사용하여 값 프로젝션 (value projection), 메모리 타임스케일 (memory timescale), 쓰기 게이트 (write gates), 그리고 출력 게이트 (output gate)를 설정한 다음, 각 변환된 레이어를 교사 출력에 맞추기 위해 짧은 레이어별 정렬 (per-layer alignment) 단계를 적용합니다. 네 가지 교사 설정과 세 가지 레이어 유지 정책 (retained-layer policies)에 걸쳐, Taylor-Calibrate는 실질적으로 더 강력한 제로샷 (zero-shot) 학생 모델을 제공하며, 대표적인 절제 연구 (ablation)에서 최대 88배의 개선을 보였고, 단순 변환 (naive conversion)보다 4.9배~9.2배 적은 학습 토큰으로 일치하는 복구 목표에 도달합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Taylor-Calibrate: 하이브리드 선형 어텐션 증류를 위한 원칙적인 초기화 방법

요약

핵심 포인트

댓글