본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:31

멀티 칩렛(Multi-chiplet) GPU의 GEMM 설계 공간 탐색을 위한 빠른 로컬리티 시뮬레이터

요약

멀티 칩렛 GPU 환경에서 LLM의 GEMM 연산 시 발생하는 리모트 HBM 트래픽을 최소화하기 위한 타일 수준의 로컬리티 시뮬레이터를 제안합니다. 시뮬레이션 결과, CTA 순회 방식과 데이터 배치 전략에 따라 트래픽 차이가 극명하게 나타남을 확인했습니다.

핵심 포인트

  • 멀티 칩렛 GPU의 성능 향상을 위한 리모트 HBM 트래픽 최적화 연구
  • CTA 스케줄링 및 데이터 배치를 모델링하는 빠른 타일 수준 시뮬레이터 개발
  • 설계 공간에 따라 리모트 트래픽이 최대 58배까지 차이 발생 확인
  • 2D 블록 스위즐 방식이 기존 1D 순회 대비 리모트 트래픽을 최대 5.1배 감소

멀티 칩렛(Multi-chiplet) GPU는 실리콘 인터포저(silicon interposer)를 통해 메모리를 로컬(local) 및 리모트(remote) HBM 영역으로 분할하며, 리모트 HBM 트래픽을 줄이는 것은 멀티 칩렛 GPU의 성능과 에너지 효율성에 매우 중요합니다. 대규모 언어 모델(LLMs)에서 지배적인 연산자인 일반 행렬 곱셈(GEMM)의 경우, 발생하는 칩렛 간(inter-chiplet) 트래픽은 피연산자 레이아웃(operand layout), CTA 순회 순서(CTA traversal order), 데이터 배치(data placement)와 같은 커널 선택에 크게 의존하며, 리모트 액세스를 최소화하기 위한 최적의 전략을 찾는 것은 쉽지 않습니다. 본 논문에서는 전체 크기의 LLM GEMM 구성을 평가하기 위해 CTA 스케줄링, 칩렛별 L2 캐시, 로컬/리모트 HBM 액세스를 모델링하는 빠르고 기능적인 타일 수준(tile-level) 로컬리티 시뮬레이터를 제시합니다. 대표적인 LLM GEMM들을 대상으로 시뮬레이션을 수행한 결과, 동일한 GEMM 차원에 대해 설계 공간(design space)에 따라 리모트 트래픽이 최대 58배까지 차이가 남을 확인했습니다. 또한, 시뮬레이터를 피드백으로 활용하여 에이전틱 AI(agentic AI)를 사용한 결과, 라운드 로빈(round-robin) 배치 조건에서 2D 블록 스위즐(2D block-swizzle) CTA 순회가 기존 최적의 1D 순회보다 리모트 트래픽을 최대 5.1배 감소시킨다는 것을 발견하였으며, 이를 통해 CTA 순회 순서가 칩렛 간 트래픽을 조절하는 GEMM 의존적인 1차 설계 노브(design knob)임을 식별하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0