arXiv논문2026. 06. 08. 10:40

FP8 Attention에서의 P-Cast 정밀도: Sink 유도 붕괴와 S=2^8의 최적성

요약

FP8 Attention 연산 시 발생하는 정밀도 저하 문제인 'P-붕괴' 현상을 분석하고, 이를 해결하기 위한 역방향 반복 방식과 최적의 정적 스케일링 인자(S=256)를 제안합니다. 해당 최적화는 FlashAttention-3/4에 적용되어 성능을 입증했습니다.

핵심 포인트

FP8(E4M3) 캐스팅 시 3비트 가수 제한으로 인한 정밀도 손실 분석
순방향 KV 반복이 유발하는 'P-붕괴(P-collapse)' 현상 규명
역방향 반복과 S=256 스케일링을 통한 언더플로우 방지
정밀도 손실 예측을 위한 폐쇄형 임계값(closed-form threshold) 제공
실험 결과 중간 수준의 sink 강도에서 MSE 3~10배 개선 확인

Attention 연산을 위한 FP8 (E4M3) 가속은 상당한 처리량(throughput) 이득을 제공하지만, Softmax 확률 행렬 $P$가 $P \times V$ 행렬 곱셈 이전에 FP8로 캐스팅(cast)될 때 3비트 가수(mantissa)로 인해 정밀도 문제가 발생합니다. 우리는 Attention Sink 현상 하에서 출력 정밀도에 영향을 미치는 두 가지 구현 선택지를 분석합니다: (1) KV 블록 반복 순서(iteration order), 그리고 (2) 캐스팅 전 $P$에 적용되는 정적 스케일링 인자(static scaling factor). 우리는 순방향 KV 반복이 "P-붕괴(P-collapse)"를 유발함을 보여줍니다. 즉, 주요 항(leading order) 관점에서, 비-sink(non-sink) $P$ 값 중 $\Phi(\Delta + \delta_k - 6.93 - \ln S)$의 비율이 언더플로우(underflow)되어 0이 됩니다. 여기서 작은 이동값 $\delta_k \sim 1$ (for $k_{\text{sink}} = 4$)은 sink 블록 내 예상되는 점수 최댓값입니다. 또한 역방향 반복(reverse iteration)은 이를 제거하며, 역방향 방식이 $S = 256$과 결합될 때 언더플로우가 발생하지 않음을 보장합니다. 우리는 더 나아가 $S = 256 = 2^8$이 다음을 동시에 만족하는 정적 스케일임을 구성적으로 규명합니다: (i) 비트 단위로 정확한(bit-exact) IEEE 754 스케일링, (ii) E4M3 수직선 상의 톱니 함수(sawtooth function) $d_p(S)$의 하한 포락선($d_p = 2^{-4}$, 최악의 경우 양자화 단계의 최소값), (iii) 비트 단위로 정확한 ($2^k$) 스케일들 중 최대 정규 범위(normal-range) 커버리지 (448과 같은 비트 단위로 정확하지 않은 스케일은 약간 더 높은 커버리지를 달성함). 두 가지 최적화는 공학적 근거에 따라 이미 FlashAttention-3/4에 배포되어 있습니다. 우리의 기여는 이러한 선택이 왜 좋은지에 대한 정량적 설명과, 커널 수준의 정밀도 손실을 예측하기 위한 폐쇄형 임계값(closed-form threshold) $\Delta_c = 6.93 + \ln S - \delta_k$를 제공하는 것입니다. 커널 충실도 실험(P-캐스트 효과를 격리하기 위해 Q, K, V를 FP32로 설정) 결과, 중간 정도의 sink 강도에서 3~10배의 MSE 개선을 보여주었으며, 결합 테스트를 통해 두 수정 사항을 모두 적용했을 때 동일한 정밀도 하한(precision floor)에 포화됨을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FP8 Attention에서의 P-Cast 정밀도: Sink 유도 붕괴와 S=2^8의 최적성

요약

핵심 포인트

댓글