본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 02:47

Hopper 및 Blackwell GPU 에서 AI 워크로드를 위한 CUDA Tile 평가

요약

본 기술 기사는 NVIDIA의 새로운 GPU 커널 개발 프레임워크인 CUDA Tile (CuTile)을 Hopper 및 Blackwell 아키텍처에서 다양한 AI 워크로드에 걸쳐 평가합니다. CuTile은 프로그래밍 단순화와 효율성 유지를 목표로 하며, GEMM 및 어텐션 작업 벤치마크를 통해 성능과 이식성을 측정했습니다. 결과적으로, CuTile은 최신 데이터센터급 Blackwell(B200)에서 매우 높은 성능을 보여주었으나, 구형 아키텍처에서는 상당한 성능 저하가 관찰되었고, Triton에 비해 포터빌리티 측면에서는 열세임을 입증했습니다.

핵심 포인트

  • CuTile은 Python 기반의 추상화 계층을 제공하여 프로그래밍 단순성을 크게 향상시켰다.
  • 최신 Blackwell(B200) 아키텍처에서 CuTile은 융합된 어텐션 작업에서 FlashAttention-2 대비 높은 성능을 달성했다.
  • CuTile은 GEMM 작업에서 수동 CUDA 커널의 실용적인 대체재가 될 잠재력을 보였으나, 최고 수준의 최적화 라이브러리(예: cuBLAS)를 완전히 대체하기에는 부족함이 있다.
  • CuTile의 성능과 이식성은 워크로드와 대상 아키텍처에 크게 의존하며, 구형 GPU에서는 상당한 격차가 발생한다.
  • Triton은 모든 테스트 플랫폼에서 높은 수준의 포터빌리티(cuBLAS 성능의 62~101% 유지)를 보여주며 CuTile보다 더 강력한 이식성을 입증했다.

NVIDIA 의 CUDA Tile (CuTile) 은 현대 GPU 에서 Tensor Core 와 Tensor Memory Accelerator (TMA) 효율성을 유지하면서 프로그래밍을 단순화하기 위해 타일 중심의 추상화를 제공하는 Python 기반 GPU 커널 개발 프레임워크입니다. 우리는 cuBLAS, Triton, WMMA 및 원시 SIMT 와 같은 기존 접근법과 비교하여 Hopper 와 Blackwell 을 아우르는 세 가지 NVIDIA GPU(H100 NVL, B200, RTX PRO 6000 Blackwell Server Edition) 에서 CuTile 에 대한 최초의 독립적이고 교차 아키텍처 평가를 제시합니다. 우리는 BF16/FP16 정밀도로 GEMM, 융합된 멀티 헤드 어텐션 및 엔드 투 엔드 LLM 추론을 포함한 대표적인 AI 워크로드를 벤치마크하여 성능과 포터빌리티를 평가했습니다. 우리의 결과는 CuTile 의 효과성이 워크로드와 아키텍처에 크게 의존함을 보여줍니다. 데이터센터급 Blackwell(B200)에서 CuTile 은 융합된 어텐션 작업에서 1007 TFLOP/s 의 성능을 달성하여 FlashAttention-2 보다 2.5 배 뛰어난 성능을 보였으며, 이를 위해 Python 커널 코드만 60 줄이 필요했습니다. GEMM 에서는 WMMA(123 줄) 대비 22 줄의 코드로 cuBLAS 성능의 5279% 를 달성하여 수동으로 작성된 CUDA 커널의 실용적인 대체재가 되었으나, 벤더 최적화 라이브러리의 대체재로는 아직 부족함을 나타냈습니다. 그러나 동일한 CuTile 어텐션 커널은 RTX PRO 6000(sm_120)에서는 FlashAttention-2 의 처리량(throughput) 의 53% 만 달성하여 상당한 교차 아키텍처 최적화 격차를 드러냈습니다. 반면 Triton 은 모든 테스트 플랫폼에서 아키텍처별 튜닝 없이 cuBLAS 성능의 62101% 를 유지하며, 훨씬 더 강력한 포터빌리티를 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0