LLM FP4 사전 학습에서의 수축 편향(Shrinkage Bias) 재고: 기하학적 기원, 시스템적 영향 및 UFP4 레시피
요약
LLM FP4 사전 학습 시 발생하는 수축 편향(Shrinkage Bias)의 기하학적 원인을 분석하고, 이를 해결하기 위한 새로운 UFP4 학습 레시피를 제안합니다. 연구 결과, 균일 그리드 방식이 기존 E2M1 방식보다 학습 안정성과 양자화 품질 면에서 우수함을 입증했습니다.
핵심 포인트
- E2M1 형식의 비대칭성으로 인한 체계적 음의 반올림 오차(수축 편향) 식별
- 수축 편향이 레이어 전반에 걸쳐 곱셈적으로 누적됨을 증명
- RHT와 확률적 반올림을 결합한 새로운 UFP4 학습 레시피 제안
- Dense 및 MoE 모델 실험을 통해 BF16 대비 낮은 손실 저하 확인
FP4 학습은 LLM 사전 학습(pretraining)을 위한 메모리 및 연산 비용의 상당한 절감을 약속하지만, NVIDIA Blackwell/Rubin급 시스템과 AMD MI350 시리즈 GPU를 포함한 현재의 FP4 하드웨어 경로와 레시피는 여전히 E2M1 데이터 요소에 집중되어 있습니다. 본 연구에서 우리는 이러한 선택의 근본적인 한계를 식별합니다. E2M1과 같은 비균일 형식(non-uniform formats)은 표현 가능한 빈(bin)의 기하학적 비대칭성으로 인해 발생하는 체계적인 음의 반올림 오차인 수축 편향(Shrinkage Bias)을 본질적으로 겪게 됩니다. 우리는 이 편향이 레이어 전반에 걸쳐 곱셈적으로 누적되며, 무작위 하다마르 변환(Random Hadamard Transform, RHT)에 의해 증폭된다는 것을 보여줌으로써, 기존 E2M1 기반 FP4 레시피에서 관찰되는 학습 불안정성에 대한 통합적인 설명을 제공합니다. 이와 대조적으로, 균일 그리드(uniform grids, E1M2/INT4)는 이러한 그리드-기하학적 오류를 우회하며, RHT를 통해 개선된 버킷 활용도(bucket utilization)를 더 높은 양자화 품질(quantization quality)로 더 잘 변환합니다. 이러한 발견을 바탕으로, 우리는 세 가지 학습 GEMM 모두에 RHT를 적용하는 동시에 확률적 반올림(stochastic rounding)을 dY에만 제한하는 균일 4비트 학습 레시피인 UFP4를 제안합니다. Dense 1.5B, MoE 7.9B, 그리고 MoE 124B 장기 사전 학습(long-run pretraining)에서 UFP4는 스케일링 법칙(scaling-law) 분석 및 절제 연구(ablation studies)를 통해 입증된 바와 같이, 강력한 E2M1 기반 베이스라인보다 일관되게 낮은 BF16 대비 손실 저하(loss degradation)를 달성합니다. 우리의 결과는 향후 가속기가 E2M1과 더불어 E1M2/INT4 스타일의 균일 4비트 그리드를 일급 학습 프리미티브(first-class training primitives)로 지원해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기