본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 06:58

Grid Games: 대규모 언어 모델 양자화를 위한 다중 그리드의 힘

요약

본 논문은 대규모 언어 모델(LLM) 양자화의 새로운 접근 방식인 '다중 그리드'를 제안합니다. 이는 기존의 고정된 부동 소수점 그리드를 가정하는 대신, 각 값 그룹에 대해 여러 4비트 그리드 중 최적의 것을 선택할 수 있도록 확장한 개념입니다. 연구 결과, 이 다중 그리드 접근 방식은 특히 가중치와 활성화 값 모두를 처리할 때 단일 그리드 FP4 대비 정확도를 지속적으로 향상시키는 것으로 나타났습니다.

핵심 포인트

  • 다중 그리드는 LLM 양자화에서 각 값 그룹에 대해 여러 4비트 그리드 중 최적의 스케일을 선택할 수 있게 합니다.
  • 이 접근 방식은 기존의 단일 고정 부동 소수점 그리드(예: NF4)가 가지는 한계를 극복합니다.
  • 연구에서는 PO2, MPO2, PO2(Split87), SFP4 등 여러 실용적인 다중 그리드 제품군을 구현했습니다.
  • 적응형 그리드는 가중치 전용 및 가중치+활성화 방식 모두에서 단일 FP4 대비 정확도를 향상시킵니다.

최근 양자화 (Quantization) 분야의 주요 발전 중 하나는 NVFP4 및 MXFP4와 같은 마이크로 스케일 (microscaled) 4비트 형식으로, 이는 고정된 부동 소수점 그리드 (floating-point grid)를 가정하여 스케일 (scale)을 공유하는 작은 그룹으로 값을 양자화합니다. 본 논문에서는 다음과 같은 자연스러운 확장 방안을 연구합니다: 각 값의 그룹에 대해, 스케일 값 내의 하나 이상의 비트로 표시되는 둘 이상의 4비트 그리드 중에서 더 "나은" 것을 자유롭게 선택할 수 있다고 가정하는 것입니다. 우리는 2의 거듭제곱 그리드 (power-of-two-grids, PO2) 문제를 공식화하며, MXFP 또는 NVFP와 같은 실제 소규모 그룹 형식이 PO2 그리드로부터 상당한 이점을 얻을 수 있는 반면, 그룹의 크기가 매우 커지면 그 이점이 사라짐을 보여주는 이론적 결과를 제공합니다. 실용적인 측면에서는 다음과 같은 여러 그리드 제품군을 구현합니다: 1) 표준 NF4 정규 그리드 (normal grid)를 학습된 그리드와 결합한 PO2(NF4), 2) 실제 가중치 (weights) 및 활성화 값 (activations)에 대해 완전히 학습된 그리드 쌍인 MPO2, 3) 명시적 제로 비대칭 그리드 (explicit-zero asymmetric grid)인 PO2(Split87), 4) NVFP4를 두 개의 이동된 변형 (shifted variants)과 결합하여 TensorCore에서 구현 가능한 트리플 (triple)인 SFP4. 표준 오픈 모델의 사후 훈련 양자화 (post-training quantization) 및 Llama 스타일 모델의 사전 훈련 (pre-training) 결과에 따르면, 적응형 그리드 (adaptive grids)는 가중치 전용 (weight-only) 및 가중치+활성화 (weight+activation) 방식 모두에서 단일 그리드 FP4 대비 정확도를 일관되게 향상시킵니다. 소스 코드는 https://github.com/IST-DASLab/GridGames 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0