FP8 품질 한계를 8비트 가중치 및 활성화로 유지하기: Ideogram 4.0의 INT8 및 GGUF 후 학습
요약
Ideogram 4.0 모델을 대상으로 FP8 없이도 높은 품질을 유지하는 INT8(W8A8) 및 GGUF 양자화 기법을 연구했습니다. SmoothQuant와 혼합 정밀도 보호를 통해 소비자용 GPU에서도 성능 저하 없이 효율적인 실행이 가능함을 입증했습니다.
핵심 포인트
- INT8 W8A8 방식이 FP8 수준의 품질을 유지하며 NF4 대비 CLIP 점수 개선
- GGUF Q4_K 양자화가 동일 크기 대비 NF4보다 우수한 품질-메모리 효율 달성
- FFN 다운-프로젝션 레이어 보호가 양자화 품질 유지의 핵심 요소임 확인
- Ampere 아키텍처 GPU를 위한 효율적인 8비트 양자화 가이드라인 제시
후 학습 양자화(Post-training quantization)를 통해 대규모 텍스트-이미지 확산 트랜스포머(diffusion transformers)가 소비자용 GPU에서 실행될 수 있지만, 하드웨어별 상충 관계는 직접적으로 측정되는 경우가 드뭅니다. 우리는 FP8 텐서 코어가 없는 Ampere RTX 3090 GPU를 위해 Ideogram 4.0—클래시파이어 프리 가이던스(classifier-free guidance)용 단일 스트림 34개 레이어 백본의 두 개의 개별 가중치 복사본으로 제공되며 Qwen3-VL-8B 인코더에 의해 조건화되는 9.3B 플로우 매칭 확산 트랜스포머(DiT)—을 양자화했습니다. 우리의 INT8 W8A8 방식(채널별 가중치, 토큰별 동적 활성화, SmoothQuant, 그리고 작은 고취약성 레이어 세트의 혼합 정밀도 보호)은 FP8 품질 한계를 유지합니다: 200개 프롬프트 벤치마크에서 INT8-FP8 쌍을 이루는 동일 시드 부트스트랩 CI(confidence interval)는 Pick과 CLIP 모두에서 0을 포함하며, INT8은 NF4 대비 $+1.9$ CLIP (95% CI $[+1.21,+2.64]$, 0 제외)를 개선합니다. 이 모델 클래스에 대해 보고된 바 없는 카테고리별 OCR 분석을 통해 텍스트 가독성이 유지됨을 확인했으며, 제거 실험(ablation)은 FFN 다운-프로젝션 보호가 지배적인 품질 레버임을 분리해냈습니다. 우리의 GGUF Q4_K 양자화는 동일한 온디스크 크기에서 NF4를 능가하며, 품질-메모리 경계면에서 파레토 우수(Pareto winner)합니다. 이때 쌍을 이루는 신뢰 구간은 0을 제외합니다 (Q8_0은 품질 중립적입니다). 마지막으로, 우리는 8비트 양자화가 도움이 되는 경우와 그렇지 않은 경우를 특성화했습니다: INT8의 가중치는 FP8처럼 크기를 줄이기보다는 그 흔적(footprint)과 일치하므로, Ampere에서는 통합된 INT8 커널이 속도 향상을 기다리고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기