arXiv논문2026. 05. 26. 11:38

유한체 암호학(Finite-Field Cryptography)에서 클라우드 TPU의 아키텍처적 한계

요약

유한체 암호학 연산 시 클라우드 TPU가 GPU 대비 심각한 비용 효율성 결손을 보임을 실증적으로 분석했습니다. 이는 광범위 정수 ALU의 부재와 공간적 페널티로 인해 AI 최적화 시스톨릭 어레이가 필드 산술에 부적합함을 시사합니다.

핵심 포인트

TPU 아키텍처가 유한체 암호학 연산에서 GPU 대비 막대한 비용 결손 발생
광범위 정수 ALU 부재로 인한 근본적인 산술적 페널티 확인
Montgomery reduction 과정에서의 공간적 붕괴 및 시스톨릭 어레이 고갈 현상
측정 도구인 codename을 통한 NTT 매핑 및 워크로드 분석

우리는 유한체 암호학(Finite-Field Cryptography)에 대해 클라우드 Tensor Processing Units (TPU)와 GPU 사이의 비용 효율성 결손을 실증적으로 특성화합니다. A100 GPU 베이스라인(cuZK)과 비교했을 때, FP32-mantissa 스테이징 규율 하에서 v5p 및 v4 아키텍처 전반에 걸쳐 $[5{,}558 imes, 6{,}908 imes]$의 결손을 측정하였으며, v5p의 네이티브 exttt{int32} 누산기(accumulator)를 사용할 경우 약 $\sim$$4{,}693 imes$의 결손을 측정하였습니다. 우리는 이 결손을 근본적인 산술적 페널티(광범위 정수 ALU의 부재)와 공간적 페널티로 분석적으로 투영합니다. 엄격한 분리가 즉각적인 Montgomery reduction을 강제하는 동시 다중 테넌트(multi-tenant) 배포를 평가한 결과, 예상되는 $5.19 imes$의 공간적 붕괴를 입증하였습니다. 이 제약을 완화하면 이론적으로 이러한 공간적 사이클을 회복할 수 있으나, 근본적인 산술적 페널티는 그대로 남습니다. 이러한 특성화를 용이하게 하기 위해, 우리는 측정 도구로서 ext{\codename}을 배포합니다. 저차 다항식(low-degree polynomials)을 행렬 형태의 Number Theoretic Transforms (NTT)로 매핑함으로써, 스케줄러는 이질적인 다항식들을 조밀한 2D 행렬로 쌓아 올려, 균일한 워크로드에서 $\sim$$100%$의 K-dimension 열 점유율(혼합 차수 트레이스에서는 $>$$92%$)을 달성합니다. 그러나 최적의 K-dimension 패킹에도 불구하고, 심각한 M-dimension 미사용(예: v4에서 $6.25%$)과 압도적인 VPU 바운드 Montgomery reduction이 결합되어 시스톨릭 어레이(systolic arrays)를 수학적으로 고갈(starve)시킵니다. 사후 HLO 검증기(validator)는 이러한 측정값이 XLA 퓨전 엔진(fusion engine)에 대해 구조적으로 격리된 상태를 유지하도록 보장합니다. 우리의 연구 결과는 정확하고 높은 처리량이 요구되는 필드 산술(field arithmetic)에 대해 AI 최적화 시스톨릭 어레이가 구조적으로 부적합함을 실증적으로 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

유한체 암호학(Finite-Field Cryptography)에서 클라우드 TPU의 아키텍처적 한계

요약

핵심 포인트

댓글