OffQ: 오프세팅(Offsetting)을 통한 LLM 양자화에서의 구조적 이상치(Structured Outliers) 제어
요약
OffQ는 저비트 양자화 시 발생하는 활성화 이상치 문제를 해결하기 위한 새로운 오프세팅 메커니즘을 제안합니다. PCA를 통해 이상치를 특정 채널로 집중시킨 후 공유된 오프셋으로 흡수하여, 모델의 정확도를 유지하면서 효율적인 W4A4KV4 양자화를 가능하게 합니다.
핵심 포인트
- PCA를 활용한 저차원 이상치 부분 공간 식별
- 회전 기술을 통해 높은 크기의 활성화를 1개 채널로 집중
- 공유 오프셋을 통한 활성화 표준 편차 감소
- W4A4KV4 양자화 환경에서 최첨단 성능 입증
저비트 양자화(Low-bit quantization)는 계산 비용과 메모리 사용량을 크게 줄임으로써 대규모 언어 모델(LLMs)의 추론을 가속화하기 위해 널리 채택되어 왔습니다. 그러나 활성화 이상치(activation outliers)는 효과적인 양자화에 주요한 도전 과제가 되며, 종종 눈에 띄는 성능 저하를 초래합니다. 본 논문에서는 새로운 오프세팅(offsetting) 메커니즘을 통해 저비트 양자화에서의 활성화 이상치를 완화하도록 설계된 방법인 OffQ를 소개합니다. 구체적으로, OffQ는 먼저 제안된 top-1 PCA를 사용하여 활성화(activations) 내의 저차원 이상치 부분 공간(outlier subspace)을 식별한 다음, 회전(rotation)을 통해 높은 크기의 활성화를 1개 채널로 집중시킵니다. 그 후 OffQ는 이 집중된 이상치 채널의 크기를 공유된 오프셋(shared offset)으로 변환하여 흡수함으로써, 활성화의 표준 편차(standard deviation)를 줄입니다. 이러한 오프세팅 전략은 배포 친화적인 균등 그리드(uniform-grid) 및 균등 정밀도(uniform-precision) 양자화를 사용하여 LLM의 효과적인 W4A4KV4 양자화를 가능하게 합니다. 다양한 LLM 아키텍처와 벤치마크에 걸친 광범위한 실험을 통해 OffQ가 최첨단(state-of-the-art) 베이스라인보다 성능이 뛰어남을 입증하였으며, 저비트 효율성을 유지하면서 모델 정확도를 일관되게 향상시킴을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기