본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 12:44

정밀도가 아닌 범위: Apple Silicon에서의 Block-Floating-Point 반정밀도 FFT 및 SAR 이미징

요약

Apple Silicon에서 FP16을 활용한 고성능 FFT 및 SAR 이미징 구현 방법을 제안합니다. 단순 FP16 사용 시 발생하는 오버플로 문제를 Block-Floating-Point(BFP) 스케줄링으로 해결하여, FP32 수준의 품질을 유지하면서도 처리량을 2.2배 향상시켰습니다.

핵심 포인트

  • FP16의 동적 범위는 레이더 신호 처리에 충분함
  • BFP 스케줄링을 통해 FP16의 오버플로 문제 해결
  • FP32 대비 2.2배 높은 306 GFLOPS 성능 달성
  • FP8은 SQNR 저하로 인해 현재 레이더용으로 부적합함

반정밀도 (FP16)는 GPU에서 FFT 처리량을 두 배로 늘려줄 것으로 기대되지만, 지배적인 견해는 10비트 가수(mantissa)로 인해 레이더급 신호 처리에는 부적합하다는 것입니다. 우리는 Apple Silicon에서 이러한 프레임워크가 잘못되었음을 보여줍니다. FFT 및 합성 개구 레이더 (SAR)의 구속 조건은 가수 extit{정밀도 (precision)}가 아니라 5비트 지수(exponent)의 extit{동적 범위 (dynamic range)}입니다. 먼저 우리는 FP16 FFT가 5661dB의 신호 대 양자화 잡음비 (SQNR)에서 가수 제한을 받는다는 것을 측정하였으며, 이는 레이더에서 사용하기에 충분한 수준입니다. 그러나 단순한 FP16 SAR 파이프라인은 extit{오직} exttt{NaN}만을 생성하는데, 이는 켤레-FFT-켤레 역변환 (conjugate--FFT--conjugate inverse transform) 과정에서 크기가 $N$배만큼 증가하고, 정합 필터 (matched-filter) 곱 ($ ext{N}=4096$일 때 $ ext{ extasciitilde}5 imes10^6$)이 FP16의 상한선인 65,504를 초과하기 때문입니다. 우리는 이를 고정 시프트 extit{블록 부동 소수점 (block-floating-point, BFP)} 스케줄로 해결합니다. 각 역변환 전에 적용되는 단일 $1/N$ 스케일은 모든 중간값을 4096 미만으로 제한합니다. 이어서 연쇄적인 과정이 따릅니다. 범위 압축 (range-compression) 출력이 $O(N)$ 대신 $O(1)$이 되며, 이는 결과적으로 하류의 방위각-FFT (azimuth-FFT) 출력이 $O(N^2)$에서 오버플로되는 대신 FP16으로 로드 가능한 상태를 유지하게 합니다. 그 결과, 품질을 보존하는 최초의 FP16 SAR 파이프라인이 탄생했습니다. 피크/통합 사이드로브 비율 (peak/integrated sidelobe ratios), 타겟 SNR 및 해상도는 42dB의 엔드 투 엔드 (end-to-end) SQNR에서 FP32 기준값과 0.1dB 이내로 일치하며, radix-8 FP16 FFT는 팬리스 (fanless) Apple M1에서 139 GFLOPS인 FP32 기준점보다 $2.2 imes$ 높은 306 GFLOPS에 도달합니다. 마지막으로, 우리는 FP8 (E4M3/E5M2)이 1420dB SQNR로 무너지는 것을 측정하여, FP16이 FFT 기반 레이더를 위한 extit{현재}의 정밀도 하한선임을 확인했습니다(미래의 정밀도 복구 방법이 이를 더 낮출 수는 있습니다). 이는 여기서 저정밀도의 핵심 레버가 가수 비트가 아니라 범위 관리임을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0