본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:21

멀티 칩렛(Multi-chiplet) GPU의 GEMM 설계 공간 탐색을 위한 빠른 로컬리티 시뮬레이터

요약

멀티 칩렛 GPU 환경에서 LLM의 GEMM 연산 시 발생하는 칩렛 간 트래픽을 최소화하기 위한 타일 수준의 로컬리티 시뮬레이터를 제안합니다. 시뮬레이션 결과, CTA 순회 순서와 데이터 배치가 원격 트래픽에 결정적인 영향을 미침을 확인했습니다.

핵심 포인트

  • 멀티 칩렛 GPU의 성능 향상을 위한 원격 HBM 트래픽 최소화 전략 연구
  • CTA 스케줄링 및 L2 캐시를 모델링하는 빠른 타일 수준 시뮬레이터 개발
  • 설계 공간에 따라 원격 트래픽이 최대 90배까지 차이 날 수 있음을 입증
  • 에이전트형 AI를 활용해 2D 블록 스위즐 방식이 트래픽을 최대 5.1배 절감함을 발견

멀티 칩렛(Multi-chiplet) GPU는 실리콘 인터포저(silicon interposer)를 통해 메모리를 로컬(local) 및 원격(remote) HBM 영역으로 분할하며, 원격 HBM 트래픽을 줄이는 것은 멀티 칩렛 GPU의 성능과 에너지 효율성에 매우 중요합니다. 대규모 언어 모델(LLMs)에서 지배적인 연산자인 일반 행렬 곱셈(GEMM)의 경우, 발생하는 칩렛 간(inter-chiplet) 트래픽은 피연산자 레이아웃(operand layout), CTA 순회 순서(CTA traversal order), 데이터 배치(data placement)와 같은 커널 선택에 크게 의존하며, 원격 액세스를 최소화하기 위한 최적의 전략을 찾는 것은 쉽지 않습니다. 본 논문에서는 전체 크기의 LLM GEMM 구성을 평가하기 위해 CTA 스케줄링, 칩렛별 L2 캐시, 로컬/원격 HBM 액세스를 모델링하는 빠르고 기능적인 타일 수준(tile-level) 로컬리티 시뮬레이터를 제시합니다. 대표적인 LLM GEMM들을 대상으로 시뮬레이션을 수행한 결과, 동일한 GEMM 차원에 대해 설계 공간(design space)에 따라 원격 트래픽이 최대 90배까지 차이 나는 것을 확인했습니다. 또한, 시뮬레이터를 피드백으로 사용하여 에이전트형 AI(agentic AI)를 활용한 결과, 라운드 로빈(round-robin) 배치 조건에서 2D 블록 스위즐(2D block-swizzle) CTA 순회가 최적의 1D 순회보다 원격 트래픽을 최대 5.1배까지 줄일 수 있음을 발견하였으며, 이를 통해 CTA 순회 순서가 칩렛 간 트래픽을 결정하는 GEMM 의존적인 1차 설계 조절 변수(design knob)임을 식별하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0