Chiplet GPU의 페이지 단위 배치와 호환되는 지역성 인식 GEMM 구현
요약
멀티 칩렛 GPU의 비균일 메모리 환경에서 데이터 지역성을 최적화하기 위한 Chiplet-Contiguous Layout을 제안합니다. 이 방식은 OS나 하드웨어 변경 없이 페이지 단위 배치와 호환되며, LLM 연산 시 원격 HBM 트래픽을 획기적으로 감소시킵니다.
핵심 포인트
- 칩렛 간 데이터 매핑을 위한 새로운 글로벌 메모리 레이아웃 제안
- OS 및 하드웨어 수정 없이 페이지 단위 배치와 호환 가능
- Qwen 및 Llama 모델 테스트 결과 원격 HBM 트래픽 대폭 감소
- 비균일 메모리 시스템의 에너지 효율성 및 성능 최적화
멀티 칩렛 (Multi-chiplet) GPU는 연산 처리량과 고대역폭 메모리 (HBM) 용량을 확장하지만, 비균일 메모리 시스템 (non-uniform memory system)으로 인해 칩렛과 데이터 사이의 지역성 (locality)이 GPU의 성능 및 에너지 효율성에 매우 중요합니다. 지역성 인식 (Locality-aware) 스케줄링 및 데이터 배치는 어떤 데이터가 각 칩렛 근처에 위치해야 하는지를 식별합니다. 그러나 일반 행렬 곱셈 (GEMM)에서 지역성 인식 데이터 배치는 고정된 페이지 단위 (page-granularity) 데이터 인터리빙 (interleaving)과 호환되지 않는 경우가 많은데, 이는 칩렛 간 데이터 매핑을 위한 최적의 입도 (granularity)가 워크로드에 따라 크게 달라지기 때문입니다. 우리는 칩렛 로컬 데이터를 연속적으로 저장하는 글로벌 메모리 레이아웃인 Chiplet-Contiguous Layout을 제안합니다. Chiplet-Contiguous Layout은 운영 체제(OS)나 하드웨어의 변경 없이도 다양한 대규모 언어 모델 (LLM) GEMM 형상에 대해 페이지 단위 배치와 호환되는 지역성 인식 배치를 가능하게 합니다. Qwen 3 30B 및 Llama 3.1 70B의 대표적인 LLM 추론 및 학습 GEMM에 대해 테스트한 결과, Chiplet-Contiguous Layout은 4KB 인터리빙 대비 Qwen에서는 평균 24.7배, Llama에서는 19.2배의 원격 HBM 트래픽을 감소시켰으며, 거친(coarse) 지역성 인식 배치 대비 각각 4.1배 및 2.1배의 트래픽 감소 효과를 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기