TORQ: MXFP4 양자화를 위한 2단계 직교 회전 (Two-Level Orthogonal Rotation)
요약
TORQ는 MXFP4 형식을 활용한 LLM 활성화 양자화 시 발생하는 정확도 저하 문제를 해결하기 위한 훈련 불필요(PTQ) 프레임워크입니다. Schur-Horn 정리를 이용한 블록 간 직교 회전과 최대 엔트로피 가이드 기반의 블록 내 회전을 통해 활성화 분포의 불균형을 해소합니다. 실험 결과, Qwen3-32B 모델에서 기존 방식 대비 정확도를 대폭 향상시켜 4비트 양자화와 전체 정밀도 추론 사이의 격차를 크게 줄였습니다.
핵심 포인트
- MXFP4 양자화의 주요 문제점인 블록 간 분산 불균형과 블록 내 코드북 활용 불균형을 식별함
- Schur-Horn 정리를 활용하여 블록 간 에너지를 재분배하는 거시적 수준의 직교 회전 도입
- 최대 엔트로피 가이드를 통해 코드북 붕괴를 방지하고 정보 용량을 극대화하는 미시적 수준의 회전 적용
- LLaMA3 및 Qwen3 모델 실험을 통해 4비트 저비트 추론의 실질적인 성능 향상 입증
대규모 언어 모델 (LLMs)이 실질적인 배포를 향해 발전함에 따라, Microscaling FP4 (MXFP4) 형식은 높은 동적 범위 (dynamic range)와 하드웨어 효율성 사이의 균형을 맞추는 능력 덕분에 차세대 저비트 추론 (low-bit inference)의 초석으로 부상했습니다. 그러나 MXFP4를 LLM 활성화 (activation) 양자화에 직접 적용하면 필연적으로 상당한 정확도 저하가 발생합니다. 본 논문에서는 MXFP4 활성화 양자화의 오차 구조를 이론적으로 분석하여, 이러한 성능 저하의 근본 원인이 활성화 분포와 MXFP4 블록 부동 소수점 (block floating-point) 형식 사이의 두 가지 구조적 불균형에 있음을 밝혀냈습니다: (1) 극심한 블록 간 분산 불균형 (inter-block variance imbalance) 및 (2) 블록 내 코드북 활용 불균형 (intra-block codebook utilization imbalance). 이러한 과제를 해결하기 위해, 우리는 최적의 좌표 변환을 통해 활성화 공간의 기하학적 특성을 재구성하도록 설계된 훈련이 필요 없는 사후 양자화 (Post-Training Quantization, PTQ) 프레임워크인 TORQ (Two-level Orthogonal Rotation for MXFP4 Quantization)를 제안합니다. 거시적 수준에서 TORQ는 Schur-Horn 정리를 활용하여 블록 간 직교 회전 (inter-block orthogonal rotation)을 통해 활성화 에너지를 재분배함으로써, 분산이 큰 블록이 공유 스케일링 인자 (scaling factors)를 높이는 것을 방지하고 이를 통해 작은 크기의 요소들의 정밀도를 보존합니다. 미시적 수준에서 TORQ는 최대 엔트로피 가이드 블록 내 회전 (maximum-entropy-guided intra-block rotation)을 채택하여 코드북 붕괴 (codebook collapse)를 완화하고 MXFP4 코드북의 정보 용량을 극대화합니다. LLaMA3 및 Qwen3와 같은 주요 LLM에 대한 실험 결과, TORQ는 기존 방법들과 비교하여 MXFP4 활성화 양자화의 정확도를 크게 향상시키는 것으로 나타났습니다: Qwen3-32B의 경우, WikiText에서의 퍼플렉시티 (perplexity)가 8.43으로 감소하였으며 (BF16의 7.61 대비), 평균 정확도는 직접적인 RTN 방식의 38.40%에서 73.63%로 증가하였습니다 (BF16의 74.82% 대비). 이는 4비트 부동 소수점 양자화와 전체 정밀도 (full-precision) 추론 사이의 격차를 실질적으로 좁혔음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기