AWQ는 영리하게 양자화하지 않습니다. 단지 반올림 오차를 안전한 곳으로 옮길 뿐입니다

저는 오랫동안 AWQ 양자화 (AWQ-quantized) 모델을 실행해 왔지만, 그것이 작동하게 만드는 비결을 이해하지 못했습니다. 그래서 직접 수식으로 유도하여 정리해 보았습니다.

놀라운 점은 다음과 같습니다: AWQ는 영리하게 양자화하지 않습니다. 반올림 (Rounding)은 여전히 단순하게 유지됩니다. 레이어의 출력 오차를 분해해 보면, 이는 스텝 사이즈 (step size), 반올림 오차 (rounding error), 그리고 입력 활성화 값 (input activation) x로 인수분해됩니다. 하나의 그룹 내에서 앞의 두 요소는 기본적으로 고정되어 있으므로, 오차는 x에 비례합니다. 큰 활성화 값을 가진 몇몇 두드러진 채널들이 대부분의 손상을 입힙니다.

해결책은 재매개변수화 (reparameterization)입니다: 활성화를 s로 나누고, 가중치 (weight)에 s를 곱합니다. (Ws)(x/s) = Wx는 전체 정밀도 (full precision)에서 성립하지만, 이제 반올림이 스케일링된 가중치에 적용되어 해당 채널의 오차가 줄어듭니다.

이 포스트는 주의사항도 다룹니다: 너무 과하게 스케일링하면 다른 모든 가중치에 대해 그룹의 공유 스텝 사이즈를 팽창시킨다는 점, 왜 그래디언트 (gradients)가 도움이 될 수 없는지 (Round()는 미분값이 0임), 그리고 이를 해결하는 alpha에 대한 그리드 탐색 (grid search)에 대해 설명합니다.

제 GPTQ 작성글의 후속편입니다. 질문은 언제든 환영합니다.
https://sudhirpol522.github.io/blog/math-of-awq/
내용 재구성을 위해 LLM을 사용했습니다 😀
submitted by /u/No_Progress_5399
[link] [comments]

Insights

AWQ는 영리하게 양자화하지 않습니다. 단지 반올림 오차를 안전한 곳으로 옮길 뿐입니다

요약

핵심 포인트

댓글

중국 Alibaba, 미국의 AI 패권에 다시 한번 도전장을 내밀다

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표