Sim-FA: A GPGPU Simulator Framework for Fine-Grained FlashAttention Pipeline
요약
본 논문은 대규모 언어 모델(LLMs)의 효율적인 처리를 위해 도입된 와프 전문화와 같은 최신 GPGPU 아키텍처 기능을 지원하는 사이클 정확도 시뮬레이터 프레임워크인 Sim-FA를 제안합니다. 기존 학술 도구들이 새로운 GPU 기능(예: TMA)을 적시에 통합하지 못하고 DRAM 트래픽 추정에서 부정확성을 보이는 문제를 해결하고자 합니다. Sim-FA는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지의 전체 파이프라인을 구축했으며, H800과 비교하여 낮은 오차율(MAPE 5.7%)을 달성하며 그 성능을 입증했습니다.
핵심 포인트
- LLM 가속화를 위해 와프 전문화와 같은 새로운 GPGPU 아키텍처 기능이 도입되어 시간적 중첩 및 성능 향상을 가능하게 함.
- 기존 사이클 정확도 시뮬레이터는 최신 GPU 기능(예: TMA)을 적절히 통합하지 못하고, DRAM 트래픽 추정에서 부정확성을 보임.
- Sim-FA는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지의 완전한 파이프라인을 제공하는 새로운 프레임워크임.
- 제안된 Sim-FA는 H800과 비교하여 낮은 오차율(MAPE 5.7%)로 높은 정확도를 달성했음을 입증함.
대규모 언어 모델 (LLMs) 을 효율적으로 지원하기 위해 현대적인 GPGPU 아키텍처는 와프 전문화 (warp specialization) 와 같은 새로운 기능과 프로그래밍 패러다임을 도입했습니다. 이러한 기능은 생산자와 소비자 간의 시간적 중첩, 그리고 행렬 곱셈과 활성화 함수 연산 간의 시간적 중첩을 가능하게 하여 성능을 현저히 향상시킵니다. 효과적인 AI 인프라 및 컴퓨터 아키텍처 연구를 수행하기 위해서는 이러한 새로운 기능을 지원하고, 작업 부하 특성을 충실히 포착하는 분석 모델을 함께 갖춘 사이클 정확도 시뮬레이터가 필수적입니다. 그러나 기존 학술 도구는 이러한 새로운 요구사항에 대한 지원을 제한적으로 제공합니다. 기존의 사이클 정확도 시뮬레이터는 텐서 메모리 가속기 (TMA) 와 같은 새로운 NVIDIA GPU 기능을 적시에 통합하지 않습니다. 또한, 기존 분석 모델은 특정 구성에서 DRAM 트래픽을 오산할 수 있습니다. 본 논문에서는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지 시뮬레이션 파이프라인을 구축합니다. 시뮬레이터는 H800 과 비교하여 평균 절대 백분율 오차 (MAPE) 를 5.7% 로, 최대 절대 백분율 오차를 12.7% 로 달성했습니다. 또한 FlashAttention-3 의 이론적 분석을 제공하고 기존 분석 모델이 왜 부정확한 트래픽 추정을 생성할 수 있는지 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기