본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 13:58

현대 GPU 아키텍처 간 마이크로벤치마크 기반 분석 성능 모델링

요약

본 논문은 최신 GPU 아키텍처(NVIDIA Blackwell B200 및 AMD CDNA3 MI300A)의 복잡한 성능 특성을 포착하기 위해 마이크로벤치마크 기반 분석 성능 모델을 개발했습니다. 이 모델은 각 아키텍처의 핵심 요소(예: TMEM, Infinity Cache, 텐서 코어 등)를 반영하여 설계되었으며, 기존의 단순한 이론적 모델(Roofline)보다 훨씬 높은 정확도를 보여주었습니다. 또한, 이 모델은 다른 세대 GPU(H200, MI250X)에도 쉽게 적용 가능함을 입증했습니다.

핵심 포인트

  • 최신 GPU 아키텍처의 성능 분석을 위해 마이크로벤치마크 기반의 정교한 성능 모델이 개발되었다.
  • 개발된 모델은 NVIDIA Blackwell (B200)과 AMD CDNA3 (MI300A) 등 최신 칩셋의 복잡한 메모리 및 연산 구조를 정확하게 포착한다.
  • 기존의 단순한 Roofline 기반 성능 예측 모델 대비 월등히 높은 정확도(MAE 1.31% vs >95%)를 달성했다.
  • 모델은 HBM 대역폭, 캐시 파라미터 등으로 업데이트만 하면 다른 세대 GPU에도 쉽게 확장 적용 가능하다.

복잡한 메모리 계층 구조, 행렬 유닛, 그리고 다양한 정밀도 포맷을 특징으로 하는 빠르게 진화하는 GPU 아키텍처들은 이론적 피크와 실현 가능한 성능 사이의 격차를 계속 확대하고 있습니다. 우리는 NVIDIA Blackwell (B200) 과 AMD CDNA3 (MI300A) 를 기반으로 체계적인 마이크로벤치마크 특성을 바탕으로 분석 성능 모델을 설계 및 개발했습니다. Blackwell 의 경우 Tensor Memory (TMEM), 비동기 bulk copy (TMA), 5 세기 텐서 코어를 포착합니다; CDNA3 의 경우 Infinity Cache 계층 구조, VGPR 제약, 그리고 점유율 (occupancy) 을 포착합니다. 검증 결과는 B200 에서 1.31% MAE (21 커널), MI300A 에서 0.09% (27 커널) 로, 동일한 커널에서 단순한 roofline 베이스라인은 95% 이상의 오류를 초과했습니다. 우리는 Rodinia~3.1 과 SPEChpc 2021 Tiny 를 사용하여 모델을 추가로 검증했습니다. 모델은 HBM 대역폭, 용량, 캐시 파라미터로 업데이트되어 H200 (Hopper) 와 MI250X (CDNA2) 에 적용되었으며, 모델의 대규모 재구성이 필요하지 않음을 나타냅니다. 모든 모델과 벤치마크는 수용 시 오픈 소스로 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0