CXL-ClusterSim: gem5 및 SST를 이용한 풀링 및 공유를 위한 CXL 기반 분리형 메모리 클러스터 모델링
요약
대규모 AI 워크로드의 DRAM 저활용 문제를 해결하기 위해 CXL 기반 분리형 메모리 클러스터를 모델링하는 CXL-ClusterSim 프레임워크를 제안합니다. gem5와 SST를 결합하여 확장성과 유연성을 갖춘 풀 시스템 시뮬레이션 환경을 구축했습니다.
핵심 포인트
- CXL 기반 분리형 메모리 설계 공간 탐색을 위한 프레임워크 제안
- gem5의 높은 충실도와 SST의 병렬 시뮬레이션 장점 결합
- AI 학습 및 추론 시 발생하는 DRAM 과다 프로비저닝 문제 해결 기여
- 하드웨어 및 소프트웨어 공동 설계를 위한 확장 가능한 인프라 제공
대규모 AI 학습(training) 및 추론(inference)은 높은 피크 대비 평균 활용률(peak to average utilization ratios)을 가진 수백 기가바이트에서 테라바이트 단위의 DRAM을 필요로 하며, 이는 과다 프로비저닝(overprovisioning)을 초래합니다. 클라우드 컴퓨팅에서 DRAM은 비용의 상당 부분을 차지합니다. 그러나 최근 논문들이 보여주듯, DRAM은 심각하게 저활용되고 있습니다. 메모리 분리(Memory disaggregation)는 이 두 가지 문제에 대한 해결책입니다. CXL 프로토콜의 등장과 함께, 분리형 메모리를 갖춘 컴퓨팅 시스템을 설계하고 최적화하는 것에 대한 관심이 다시 높아지고 있습니다. 하지만 현재로서는 분리형 메모리를 갖춘 컴퓨터 시스템의 설계 공간(design space)을 탐색하고 성능 트레이드오프(performance tradeoffs)를 평가할 수 있는 시뮬레이션 도구가 제한적입니다. 본 논문에서는 충실도(fidelity)를 위한 gem5 시뮬레이터와 병렬 시뮬레이션을 위한 SST (Structural Simulation Toolkit)를 결합한 풀 시스템 모델링 및 시뮬레이션 프레임워크인 CXL-ClusterSim을 제안합니다. 우리는 이러한 시뮬레이션 인프라를 구축하는 데 따르는 과제들을 설명하고, 컴퓨터 아키텍트들이 CXL 기반 분리형 메모리의 설계 공간을 탐색하고 하드웨어/소프트웨어 공동 설계(hardware/software codesign) 및 성능 최적화를 위한 새로운 기회를 식별할 수 있도록 확장 가능하고(scalable), 유연하며(flexible), 합리적으로 빠른(reasonably fast) 설계를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기