arXiv논문2026. 06. 01. 11:09

MixFP4: 적응형 FP4/INT4 블록 표현을 통한 NVFP4 성능 향상

요약

MixFP4는 NVFP4의 한계를 극복하기 위해 제안된 적응형 FP4/INT4 혼합 마이크로 포맷 기술입니다. 추가 메타데이터 없이 E2M1과 E1M2 포맷을 선택적으로 사용하여 LLM 양자화의 정확도와 견고성을 높입니다.

핵심 포인트

NVFP4의 스케일 계층 구조를 재사용하여 효율성 극대화
추가 메타데이터 없이 FP8 부호 비트를 활용한 포맷 인코딩
통합된 E2M2 연산 표현을 통해 데이터 경로 중복 방지
미미한 오버헤드로 LLM 양자화 정확도 및 견고성 향상

대규모 언어 모델 (LLM)이 계속해서 확장됨에 따라, 상당한 처리량 (Throughput) 및 메모리 이점을 제공하는 NVFP4와 같은 미세 조정된 블록 스케일 저정밀도 (Fine-grained block-scaled low-precision) 포맷이 점점 더 많이 채택되고 있습니다. 그러나 단일 FP4 마이크로 포맷 (Micro-format)은 이질적인 블록 수준의 텐서 통계 (Tensor statistics)와 일치하지 않는 경우가 많습니다. 표준 블록 스케일 MMA/GEMM 실행 경로를 변경하지 않고 이를 해결하기 위해, 우리는 블록당 두 가지 저장된 FP4 마이크로 포맷 (E2M1 및 E1M2) 중에서 선택하는 NVFP4의 혼합 마이크로 포맷 확장인 MixFP4를 제안합니다. MixFP4는 NVFP4의 스케일 계층 구조 (Scale hierarchy)를 재사용하며, FP8 E4M3 블록 스케일의 부호 비트 (Sign bit)를 재용도 변경함으로써 추가적인 메타데이터 없이 포맷 선택을 인코딩합니다. 두 마이크로 포맷을 통합된 내부 E2M2 연산 표현 (Compute representation)으로 디코딩함으로써, MixFP4는 데이터 경로 (Datapath) 중복을 방지합니다. 대표적인 LLM 제품군 전반에 걸쳐, MixFP4는 미미한 텐서 코어 오버헤드 (면적 3.1%, 전력 1.5%)로 NVFP4 베이스라인 대비 FP4 양자화 (Quantization)의 견고성과 정확도를 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

MixFP4: 적응형 FP4/INT4 블록 표현을 통한 NVFP4 성능 향상

요약

핵심 포인트

댓글