arXiv논문2026. 04. 29. 02:47

Hopper 및 Blackwell GPU 에서 AI 워크로드를 위한 CUDA Tile 평가

요약

본 기술 기사는 NVIDIA의 새로운 GPU 커널 개발 프레임워크인 CUDA Tile (CuTile)을 Hopper 및 Blackwell 아키텍처에서 다양한 AI 워크로드에 걸쳐 평가합니다. CuTile은 프로그래밍 단순화와 효율성 유지를 목표로 하며, GEMM 및 어텐션 작업 벤치마크를 통해 성능과 이식성을 측정했습니다. 결과적으로, CuTile은 최신 데이터센터급 Blackwell(B200)에서 매우 높은 성능을 보여주었으나, 구형 아키텍처에서는 상당한 성능 저하가 관찰되었고, Triton에 비해 포터빌리티 측면에서는 열세임을 입증했습니다.

핵심 포인트

CuTile은 Python 기반의 추상화 계층을 제공하여 프로그래밍 단순성을 크게 향상시켰다.
최신 Blackwell(B200) 아키텍처에서 CuTile은 융합된 어텐션 작업에서 FlashAttention-2 대비 높은 성능을 달성했다.
CuTile은 GEMM 작업에서 수동 CUDA 커널의 실용적인 대체재가 될 잠재력을 보였으나, 최고 수준의 최적화 라이브러리(예: cuBLAS)를 완전히 대체하기에는 부족함이 있다.
CuTile의 성능과 이식성은 워크로드와 대상 아키텍처에 크게 의존하며, 구형 GPU에서는 상당한 격차가 발생한다.
Triton은 모든 테스트 플랫폼에서 높은 수준의 포터빌리티(cuBLAS 성능의 62~101% 유지)를 보여주며 CuTile보다 더 강력한 이식성을 입증했다.

NVIDIA 의 CUDA Tile (CuTile) 은 현대 GPU 에서 Tensor Core 와 Tensor Memory Accelerator (TMA) 효율성을 유지하면서 프로그래밍을 단순화하기 위해 타일 중심의 추상화를 제공하는 Python 기반 GPU 커널 개발 프레임워크입니다. 우리는 cuBLAS, Triton, WMMA 및 원시 SIMT 와 같은 기존 접근법과 비교하여 Hopper 와 Blackwell 을 아우르는 세 가지 NVIDIA GPU(H100 NVL, B200, RTX PRO 6000 Blackwell Server Edition) 에서 CuTile 에 대한 최초의 독립적이고 교차 아키텍처 평가를 제시합니다. 우리는 BF16/FP16 정밀도로 GEMM, 융합된 멀티 헤드 어텐션 및 엔드 투 엔드 LLM 추론을 포함한 대표적인 AI 워크로드를 벤치마크하여 성능과 포터빌리티를 평가했습니다. 우리의 결과는 CuTile 의 효과성이 워크로드와 아키텍처에 크게 의존함을 보여줍니다. 데이터센터급 Blackwell(B200)에서 CuTile 은 융합된 어텐션 작업에서 1007 TFLOP/s 의 성능을 달성하여 FlashAttention-2 보다 2.5 배 뛰어난 성능을 보였으며, 이를 위해 Python 커널 코드만 60 줄이 필요했습니다. GEMM 에서는 WMMA(123 줄) 대비 22 줄의 코드로 cuBLAS 성능의 5279% 를 달성하여 수동으로 작성된 CUDA 커널의 실용적인 대체재가 되었으나, 벤더 최적화 라이브러리의 대체재로는 아직 부족함을 나타냈습니다. 그러나 동일한 CuTile 어텐션 커널은 RTX PRO 6000(sm_120)에서는 FlashAttention-2 의 처리량(throughput) 의 53% 만 달성하여 상당한 교차 아키텍처 최적화 격차를 드러냈습니다. 반면 Triton 은 모든 테스트 플랫폼에서 아키텍처별 튜닝 없이 cuBLAS 성능의 62101% 를 유지하며, 훨씬 더 강력한 포터빌리티를 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hopper 및 Blackwell GPU 에서 AI 워크로드를 위한 CUDA Tile 평가

요약

핵심 포인트

댓글