arXiv논문2026. 06. 15. 07:31

FP8 품질 한계를 8비트 가중치 및 활성화로 유지하기: Ideogram 4.0의 INT8 및 GGUF 후 학습

요약

Ideogram 4.0 모델을 대상으로 FP8 없이도 높은 품질을 유지하는 INT8(W8A8) 및 GGUF 양자화 기법을 연구했습니다. SmoothQuant와 혼합 정밀도 보호를 통해 소비자용 GPU에서도 성능 저하 없이 효율적인 실행이 가능함을 입증했습니다.

핵심 포인트

INT8 W8A8 방식이 FP8 수준의 품질을 유지하며 NF4 대비 CLIP 점수 개선
GGUF Q4_K 양자화가 동일 크기 대비 NF4보다 우수한 품질-메모리 효율 달성
FFN 다운-프로젝션 레이어 보호가 양자화 품질 유지의 핵심 요소임 확인
Ampere 아키텍처 GPU를 위한 효율적인 8비트 양자화 가이드라인 제시

후 학습 양자화(Post-training quantization)를 통해 대규모 텍스트-이미지 확산 트랜스포머(diffusion transformers)가 소비자용 GPU에서 실행될 수 있지만, 하드웨어별 상충 관계는 직접적으로 측정되는 경우가 드뭅니다. 우리는 FP8 텐서 코어가 없는 Ampere RTX 3090 GPU를 위해 Ideogram 4.0—클래시파이어 프리 가이던스(classifier-free guidance)용 단일 스트림 34개 레이어 백본의 두 개의 개별 가중치 복사본으로 제공되며 Qwen3-VL-8B 인코더에 의해 조건화되는 9.3B 플로우 매칭 확산 트랜스포머(DiT)—을 양자화했습니다. 우리의 INT8 W8A8 방식(채널별 가중치, 토큰별 동적 활성화, SmoothQuant, 그리고 작은 고취약성 레이어 세트의 혼합 정밀도 보호)은 FP8 품질 한계를 유지합니다: 200개 프롬프트 벤치마크에서 INT8-FP8 쌍을 이루는 동일 시드 부트스트랩 CI(confidence interval)는 Pick과 CLIP 모두에서 0을 포함하며, INT8은 NF4 대비 $+1.9$ CLIP (95% CI $[+1.21,+2.64]$, 0 제외)를 개선합니다. 이 모델 클래스에 대해 보고된 바 없는 카테고리별 OCR 분석을 통해 텍스트 가독성이 유지됨을 확인했으며, 제거 실험(ablation)은 FFN 다운-프로젝션 보호가 지배적인 품질 레버임을 분리해냈습니다. 우리의 GGUF Q4_K 양자화는 동일한 온디스크 크기에서 NF4를 능가하며, 품질-메모리 경계면에서 파레토 우수(Pareto winner)합니다. 이때 쌍을 이루는 신뢰 구간은 0을 제외합니다 (Q8_0은 품질 중립적입니다). 마지막으로, 우리는 8비트 양자화가 도움이 되는 경우와 그렇지 않은 경우를 특성화했습니다: INT8의 가중치는 FP8처럼 크기를 줄이기보다는 그 흔적(footprint)과 일치하므로, Ampere에서는 통합된 INT8 커널이 속도 향상을 기다리고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FP8 품질 한계를 8비트 가중치 및 활성화로 유지하기: Ideogram 4.0의 INT8 및 GGUF 후 학습

요약

핵심 포인트

댓글