LLM의 거대한 스파이크는 편향 벡터이다: 메커니즘적 규명 및 스파이크 없는 양자화
요약
LLM의 활성화 스파이크가 단순한 스칼라 편향이 아닌 구조적인 벡터 편향임을 규명한 연구입니다. 이를 통해 스파이크를 제어하고 기능을 복구하는 INSERTQUANT 프레임워크를 제안하여 고성능 저비트 양자화를 구현했습니다.
핵심 포인트
- 활성화 스파이크의 원인이 구조적 벡터 편향임을 입증
- 어텐션 싱크 및 밸류 상태 배수 메커니즘의 기하학적 분석
- RoPE 섭동에 대응하는 회전 안정성 구역의 존재 확인
- INSERTQUANT를 통한 고충실도 저비트 양자화 달성
- ViT 등 타 모달리티로의 뛰어난 일반화 성능
대규모 언어 모델 (LLMs)에서의 거대한 활성화 스파이크 (activation spikes)는 동적 범위 (dynamic ranges)를 확장시켜 양자화 (quantization) 성능을 심각하게 저하시킵니다. 기존의 가설들은 이를 고수준의 스칼라 편향 (scalar biases)으로 규정하지만, 본 연구에서는 이것이 스파이크를 포함하는 토큰 내의 경직되고 구조적인 벡터 편향 (vector biases)의 스칼라 중간 단계일 뿐이라고 주장합니다. 우리는 이러한 토큰들이 정규화 (normalization) 이후 어텐션 싱크 (attention sink) 및 밸류 상태 배수 (value-state drain) 메커니즘을 구동하는 상수 벡터로 수렴함을 보여줍니다. 우리는 투영 가중치 (projection weights)의 조율을 분석함으로써 이를 기하학적으로 입증합니다: $W_K$는 해당 벡터를 대조적으로 증폭시키고, $W_Q$는 의미론적 토큰들을 그 방향으로 정렬시키며, $W_V$는 이를 스펙트럼 영공간 (spectral null-space)으로 투영합니다. 나아가, 우리는 모델이 저주파 대역 (low-frequency bands)과 일관된 채널 쌍 (coherent channel pairs)을 활용하여 이들을 "회전 안정성 구역 (zones of rotational stability)"에 국지화함으로써, 회전 위치 임베딩 (Rotary Positional Embedding, RoPE) 섭동 (perturbations)에 맞서 이러한 구조적 편향을 능동적으로 보존한다는 사실을 밝혀냅니다. 이를 활용하여, 우리는 스파이크를 클램핑 (clamping)하고 미리 계산된 템플릿 벡터를 통해 그 기능을 복구하는 사후 훈련 양자화 (post-training quantization, PTQ) 프레임워크인 INSERTQUANT를 제안합니다. 이는 활성화를 엄격하게 스파이크가 없는 상태로 만들어, 높은 충실도 (fidelity)를 가진 견고한 저비트 양자화를 가능하게 합니다. INSERTQUANT는 LLM에서 최첨단 (state-of-the-art) per-tensor 양자화 방식과 대등한 성능을 달성하며, 텍스트를 넘어 ViTs와 같은 다른 모달리티 (modalities)로도 독보적으로 일반화됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기