HBM이 전부가 아니다: 메모리 이질적 가속기(Memory-heterogeneous Accelerators)를 활용한 효율적인 분리형 LLM

LLM 추론(Inference)은 연산 중심(compute-bound)의 프리필(prefill) 단계와 메모리 중심(memory-bound)의 디코드(decode) 단계로 구성되며, 최근 시스템들은 이들을 별도의 하드웨어로 분리(disaggregate)합니다. 그러나 오늘날의 데이터센터 GPU는 비용이 많이 드는 HBM에 의존하고 있으며, 이 HBM의 대역폭은 프리필 단계 동안 거의 유휴 상태로 머물러 있습니다. 메모리 이질적 가속기(MemHA)를 통한 LLM 서빙은 프리필을 위해 GDDR 기반 가속기를, 디코드를 위해 HBM 기반 GPU를 결합하여 성능 저하 없이 더 낮은 비용을 약속합니다. 가장 경제적인 형태로 추진될 경우, 각 단계에 가장 적합한 칩이 서로 다른 벤더(vendor)로부터 나올 수 있기 때문에 MemHA 서빙은 본질적으로 크로스 벤더(cross-vendor) 방식이 됩니다. 이는 단일 벤더 분리 방식이 당연하게 여기는 두 가지 가정, 즉 양쪽 끝단이 네이티브하게 소비할 수 있는 KV 포맷과 공유된 소프트웨어 스택을 깨뜨립니다. 우리는 프리필을 위한 GDDR 기반 가속기와 디코드를 위한 HBM 기반 GPU를 효율적으로 결합하는 MemHA 중심의 분리형 서빙 시스템인 \textbf{HMA-Serve}를 제시합니다. HMA-Serve는 다음과 같은 방법을 통해 이를 달성합니다: (1) 단계별 양자화(phase-wise quantization)를 통해, 고처리량 프리필을 위해 벤더 네이티브 저정밀도(low precision)를 적용하는 동시에 디코드는 고정밀도 BF16으로 유지합니다. (2) 각 레이어의 KV 캐시 전송을 다음 레이어의 프리필과 중첩시켜 첫 번째 토큰 생성 시간(TTFT)을 줄이는 연산-전송 파이프라인(compute-transfer pipeline), 그리고 (3) 네트워크 대역폭과 HBM 사용량을 줄이기 위해 가공되지 않은 양자화된 바이트를 전송하고 디코드 GPU에서 지연된 방식으로 재구성하는 지연된 역양자화(deferred dequantization)를 사용합니다. 네 가지 Qwen3 모델(4B--32B)과 세 가지 프로덕션 트레이스(production traces)에 대해 테스트한 결과, HMA-Serve는 최신 메모리 균질(memory-homogeneous) 방식보다 최대 $3.2 imes$ 높은 굿풋(goodput)을 제공하며, 달러당 굿풋(goodput-per-dollar)은 $4.8 imes$ 더 높았습니다. 이때 생성 품질 벤치마크에서의 측정 가능한 손실은 없었습니다.

Insights

HBM이 전부가 아니다: 메모리 이질적 가속기(Memory-heterogeneous Accelerators)를 활용한 효율적인 분리형 LLM

요약

핵심 포인트

댓글

Genebench-Pro 내부 살펴보기

AMD, Linux 커널 패치를 통해 저전력 CPU 코어 확인 — Zen 6 칩이 새로운 백그라운드 작업용 코어 타입을 도입하며 Intel의

model : qwen3next를 위한 t_layer_inp 등록 ([#25141](https://github.com/ggml-org/llama

Claude Code hooks를 사용하여 모든 AI 코딩 에이전트를 위한 메뉴 바 와처(menu bar watcher)를 구축한 방법

AMD, Linux 커널 패치를 통해 저전력 CPU 코어 확인 — Zen 6 칩이 새로운 백그라운드 작업용 코어 타입을 도입하며 Intel의

model : qwen3next를 위한 t_layer_inp 등록 ([#25141](https://github.com/ggml-org/llama

Claude Code hooks를 사용하여 모든 AI 코딩 에이전트를 위한 메뉴 바 와처(menu bar watcher)를 구축한 방법