고속 양자화 행렬 곱셈 II

이 연구는 양자화 행렬 곱셈 (Quantized Matrix Multiplication, MatMul)을 조사하는 작업의 두 번째 파트입니다. 파트 I에서는 보정(Calibration)이 필요 없는 양자화 사례를 고려한 반면, 여기서는 두 번째 인자(Factor)의 열(Column)들에 대한 공분산 행렬 $Σ_X$를 사용할 수 있는 설정을 논의합니다. 이 설정은 LLM의 가중치 전용 사후 훈련 양자화 (Weight-only Post-training Quantization)라는 보편적인 작업에서 발생합니다. 가중치 전용 양자화는 가중 평균 제곱 오차 (Weighted Mean Squared Error, WMSE) 소스 코딩 문제와 관련이 있으며, 이 문제의 고전적인 (역) 워터필링 (Waterfilling) 솔루션은 벡터의 좌표 간에 비트율 (Rate)을 어떻게 배분해야 하는지를 결정합니다. 우리는 현재 비트율을 균등하게 할당하고 있는 실용적인 LLM 양자화 알고리즘 (GPTQ)을 개선하기 위해 워터필링을 어떻게 사용할 수 있는지 보여줍니다. 스칼라 INT 양자화기만을 사용하는 최근의 방식 (``WaterSIC''로 알려짐)을 분석하였으며, 이 방식의 고속 비트율 (High-rate) 성능이 (a) 기저 (Basis)로부터 자유롭고 (즉, $Σ_X$의 행렬식에 의해 특징지어지며, 따라서 기존 방식들과 달리 무작위 회전 (Random Rotation)을 적용해도 영향을 받지 않음), (b) 정보 이론적 왜곡 한계 (Information-theoretic Distortion Limit)의 $rac{2πe}{12}$ 배 (또는 엔트리당 0.25 bit) 이내에 있음을 보여줍니다. 반면 GPTQ의 성능은 기저의 선택에 영향을 받지만, Llama-3-8B의 실제 $Σ_X$와 무작위 회전에 대해 실험한 결과, GPTQ가 WaterSIC와 (레이어 유형에 따라 다르지만) 0.1 bit 이내의 차이를 보임을 확인하였으며, 이는 무작위 회전을 적용한 GPTQ 또한 적어도 고속 비트율 영역 (High-rate regime)에서는 최적에 가깝다는 것을 시사합니다.

Insights

고속 양자화 행렬 곱셈 II

요약

핵심 포인트

댓글

AI가 버튼을 움직일 때: 적응형 UI를 위한 지원 루프 구축하기

정체성(Identity)은 쉬운 절반일 뿐이다

Skales, 바로 사용할 수 있는 AI 데스크톱 에이전트: 일반 소프트웨어 설치처럼 30초 만에 완료, 커맨드 라인(Command Line)

계정 등록 이메일 인증이나 대량 메일 발송 전, 반송 메일 방지를 위해 이메일 주소의 존재 여부를 미리 확인하고 싶다면

AI가 버튼을 움직일 때: 적응형 UI를 위한 지원 루프 구축하기

정체성(Identity)은 쉬운 절반일 뿐이다

Skales, 바로 사용할 수 있는 AI 데스크톱 에이전트: 일반 소프트웨어 설치처럼 30초 만에 완료, 커맨드 라인(Command Line)

계정 등록 이메일 인증이나 대량 메일 발송 전, 반송 메일 방지를 위해 이메일 주소의 존재 여부를 미리 확인하고 싶다면