ReQAT: 4-bit 부동 소수점 양자화 인식 학습(Quantization-Aware Training)을 통한 풀
요약
대규모 추론 모델(LRM)의 배포 비용을 줄이기 위해 4-bit 부동 소수점 양자화 인식 학습(QAT) 프레임워크인 ReQAT를 제안합니다. 저엔트로피 토큰에서 발생하는 양자화 노이즈 문제를 해결하여 추론 성능을 유지하면서도 처리량을 대폭 향상시켰습니다.
핵심 포인트
- FP4 양자화 시 저엔트로피 토큰의 노이즈가 추론 성능을 저하시킴을 확인
- Trace-Aligned QAT(TAQ)를 통해 중요한 추론 경로에 업데이트 집중
- Selective Entropy Minimization(SEM)으로 저엔트로피 위치의 확신 강화
- Q-FIT 방식을 통해 RoPE 일관성을 유지하며 KV 캐시 변환 보정
- NVIDIA B200 기준 최대 3.1배의 처리량 향상 달성
대규모 추론 모델(Large Reasoning Models, LRMs)은 긴 사고 사슬(chain-of-thought)을 통해 강력한 문제 해결 능력을 달성하지만, 풀 프리시전(full-precision) 추론의 높은 비용과 증가하는 KV 캐시(KV cache) 점유율로 인해 배포에 제약을 받습니다. 마이크로 스케일 FP4 포맷은 효율적인 FP4 배포를 가능하게 하지만, 가중치(weights), 활성화(activations), KV 캐시를 모두 양자화(W4A4KV4)하면 기존의 PTQ 및 QAT가 복구하지 못하는 심각한 추론 성능 저하가 발생합니다. 우리는 FP4의 실패가 저엔트로피 토큰(low-entropy tokens)—숫자나 연산자와 같은 정밀한 상징적 확약(symbolic commitments)—에 집중되어 있으며, 여기서 발생하는 양자화 노이즈가 추론 경로(reasoning traces)를 통해 전파되는 샘플링 오류를 증폭시킨다는 점을 확인했습니다. 이러한 통찰을 바탕으로, 우리는 세 가지 구성 요소를 가진 추론 중심의 FP4 학습 프레임워크인 ReQAT를 제안합니다: (i) 동일한 추론 경로를 재방문하여 중요한 저엔트로피 결정에 업데이트를 집중하는 Trace-Aligned QAT (TAQ), (ii) 저엔트로피 위치에서의 확신을 강화하는 Selective Entropy Minimization (SEM), (iii) QAT를 안정화하기 위해 RoPE 일관성을 갖는 KV 캐시 변환을 공동으로 보정하는 양자화 친화적 초기화 방식인 Q-FIT입니다. 동일한 학습 예산 하에서, ReQAT는 BF16 미세 조정(fine-tuning) 정확도를 복구할 뿐만 아니라 이를 능가하며, NVIDIA DGX Spark에서 최대 3.9배, B200에서 3.1배의 처리량(throughput) 향상을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기