arXiv논문2026. 05. 25. 14:24

ACALSim: 고성능 시스템 설계 공간 탐색을 위한 확장 가능한 병렬 시뮬레이션 프레임워크

요약

ACALSim은 현대 GPU 및 AI 가속기 설계를 위한 확장 가능한 병렬 시뮬레이션 프레임워크입니다. 플러그형 스레드 관리와 공유 메모리 모델을 통해 기존 SST 대비 14배 이상의 속도 향상과 낮은 메모리 사용량을 달성했습니다.

핵심 포인트

플러그형 스레드 관리 아키텍처로 맞춤형 스케줄링 지원
이벤트 기반 실행 및 제로 카피 통신을 통한 오버헤드 최소화
SST 대비 14배 이상의 속도 향상 및 41% 낮은 메모리 사용량
LLaMA 모델 시뮬레이션을 통한 대규모 워크로드 검증 완료

아키텍처 시뮬레이션(Architectural simulation)은 고성능 컴퓨팅 시스템의 설계 공간 탐색(Design Space Exploration, DSE)을 제한하는 결정적인 병목 현상이 되었습니다. 수백에서 수천 개의 밀접하게 결합된 구성 요소로 이루어진 현대의 GPU 및 AI 가속기는 효율적인 병렬성(Parallelism)과 확장 가능한 단일 노드 실행(Single-node execution)을 제공하는 시뮬레이션 프레임워크를 요구합니다. 기존 프레임워크들은 한계가 있습니다. SST는 멀티 노드 MPI 확장성(Scalability)에 집중하지만 노드 내부(Intra-node) 확장성에는 어려움을 겪으며, GPGPU-Sim은 여전히 주로 단일 스레드(Single-threaded) 방식에 머물러 있습니다. 결정적으로, 사용자가 특정 워크로드에 맞춰 스레딩(Threading)을 최적화할 수 있는 메커니즘을 제공하는 프레임워크는 없습니다. 우리는 고성능 시뮬레이터를 구축하기 위한 인프라와 API를 제공하는 확장 가능한 병렬 시뮬레이션 프레임워크인 ACALSim을 소개합니다. 단, 타이밍 모델(Timing-model)의 정확성은 시뮬레이터 개발자의 책임입니다. 이 프레임워크의 핵심 혁신은 기존 프레임워크에는 없는, 개발자가 특정 시뮬레이션 패턴에 맞춘 맞춤형 스케줄링 전략을 구현할 수 있도록 하는 플러그형 스레드 관리 아키텍처(Pluggable thread-management architecture)입니다. 이를 보완하기 위해 (1) 유휴 사이클(Idle-cycle) 오버헤드를 제거하기 위한 패스트 포워드(Fast-forward) 기능이 포함된 이벤트 기반 실행(Event-driven execution), (2) 제로 카피(Zero-copy) 통신을 가능하게 하는 공유 메모리(Shared-memory) 데이터 모델, (3) 결정론적 스레드 확장(Deterministic thread scaling)을 위한 2단계 병렬 실행 모델을 제공합니다. 우리는 A100급 아키텍처를 대상으로 하는 GPU 시뮬레이터인 HPCSim을 통해 ACALSim을 입증합니다. 프레임워크 오버헤드를 격리하기 위해 동일한 공유 타이밍 코어를 사용하는 SST 구현체와 비교했을 때, ACALSim은 41% 더 낮은 메모리 사용량(Memory footprint)과 함께 14배 이상의 속도 향상(Speedup)을 달성했습니다. 하드웨어 검증 결과, A100 측정값과 0.72~1.22배의 사이클 수(Cycle-count) 상관관계를 확인했습니다. SST가 256개 이상의 스레드 블록(Thread-block) 워크로드를 실용적인 시간 제한 내에 완료하지 못하는 반면, ACALSim은 LLaMA-7B의 경우 전체 LLaMA 트랜스포머 레이어(단일 블록)를 17.7분 만에, LLaMA-13B의 경우 30.4분 만에 시뮬레이션하여 SST가 달성할 수 없는 설계 공간 탐색을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ACALSim: 고성능 시스템 설계 공간 탐색을 위한 확장 가능한 병렬 시뮬레이션 프레임워크

요약

핵심 포인트

댓글