arXiv논문2026. 06. 16. 11:55

MosaicQuant: 통합 4-bit LLM 양자화를 위한 인라이어-아웃라이어 분리 (Inlier-Outlier Disaggregation)

요약

MosaicQuant는 인라이어와 아웃라이어를 분리하여 4-bit 양자화의 정확도 저하 문제를 해결하는 새로운 패러다임을 제안합니다. 밀집된 4-bit 베이스 컴포넌트와 오류 민감 블록을 위한 희소 4-bit 잔차 컴포넌트를 결합하여 성능을 최적화합니다.

핵심 포인트

인라이어-아웃라이어 분리 원칙을 통한 4-bit 양자화 정확도 개선
오류 민감 가중치 블록을 타겟팅하는 희소 4-bit 잔차 컴포넌트 도입
ZipperEngine을 통해 희소 블록 계산을 밀집 GEMM 커널에 융합
LLaMA3 및 Qwen3 실험 결과, FP16 수준의 정확도와 최대 1.24배 속도 향상 달성

4-bit 양자화 (quantization)는 대규모 언어 모델 (LLMs)의 메모리 사용량을 크게 줄이고 추론 (inference) 속도를 가속화합니다. 그러나 제한된 비트 폭 표현력으로 인해 밀집된 공통 값 ( extit{inliers})과 드물게 나타나는 큰 크기의 값 ( extit{outliers})을 모두 충실하게 포착하는 데 어려움을 겪으며, 이는 상당한 정확도 저하를 초래합니다. 기존의 혼합 정밀도 (mixed-precision) 방식은 아웃라이어를 높은 정밀도로 유지함으로써 이를 완화하지만, 저비트 실행의 균일성을 깨뜨리는 대가를 치릅니다. 이는 정밀도 변환 (precision conversion)과 추가적인 데이터 이동을 유발하여 실제 속도 향상을 저해합니다. 우리는 새로운 원칙인 extit{인라이어-아웃라이어 분리 (inlier--outlier disaggregation)}를 기반으로 구축된 통합 4-bit LLM 양자화 패러다임인 extbf{MosaicQuant}를 제안합니다. MosaicQuant는 아웃라이어의 정밀도를 높이는 대신, 전체 가중치 행렬을 밀집된 4-bit 베이스 컴포넌트 (base component)로 양자화하며, 여기서 인라이어는 충실하게 포착되는 반면 아웃라이어는 불가피하게 양자화됩니다. 그 후, 출력 왜곡이 집중되는 것으로 나타난 가장 오류에 민감한 가중치 블록을 선택적으로 타겟팅하여 이러한 양자화 오류를 보정하기 위한 희소 4-bit 잔차 컴포넌트 (sparse 4-bit residual component)를 도입합니다. 그러나 통합된 표현 방식만으로는 불충분합니다. 희소 잔차를 별도의 커널 (kernel)로 단순하게 실행하는 것은 여전히 통합된 저비트 추론 파이프라인을 깨뜨리기 때문입니다. 이 간극을 메우기 위해, 우리는 중첩된 파이프라인 (overlapped pipeline)을 통해 희소 블록 계산을 밀집 4-bit GEMM 커널에 융합하는 extbf{ZipperEngine}을 도입하여, 표현뿐만 아니라 실행까지 하나의 일관된 저비트 추론 파이프라인으로 통합합니다. LLaMA3 및 Qwen3에 대한 광범위한 실험을 통해 MosaicQuant가 FP16에 근접한 정확도를 유지하면서도 W16A16 베이스라인 대비 최대 $1.24 imes$의 속도 향상을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MosaicQuant: 통합 4-bit LLM 양자화를 위한 인라이어-아웃라이어 분리 (Inlier-Outlier Disaggregation)

요약

핵심 포인트

댓글