HBM이 전부가 아니다: 메모리 이질적 가속기(Memory-heterogeneous Accelerators)를 활용한 효율적인 분리형 LLM
요약
LLM 추론의 프리필과 디코드 단계를 각각 GDDR 기반 가속기와 HBM 기반 GPU로 분리하여 운영하는 MemHA 기반 서빙 시스템 HMA-Serve를 제안합니다. 단계별 양자화와 연산-전송 파이프라인을 통해 성능 저하 없이 비용 효율성을 극대화합니다.
핵심 포인트
- 프리필(GDDR)과 디코드(HBM)를 분리하여 하드웨어 효율성 최적화
- 단계별 양자화 및 지연된 역양자화 기술로 네트워크 대역폭 절감
- 연산-전송 파이프라인을 통한 첫 번째 토큰 생성 시간(TTFT) 단축
- 기존 방식 대비 최대 3.2배 높은 굿풋 및 4.8배 높은 달러당 효율 달성
LLM 추론(Inference)은 연산 중심(compute-bound)의 프리필(prefill) 단계와 메모리 중심(memory-bound)의 디코드(decode) 단계로 구성되며, 최근 시스템들은 이들을 별도의 하드웨어로 분리(disaggregate)합니다. 그러나 오늘날의 데이터센터 GPU는 비용이 많이 드는 HBM에 의존하고 있으며, 이 HBM의 대역폭은 프리필 단계 동안 거의 유휴 상태로 머물러 있습니다. 메모리 이질적 가속기(MemHA)를 통한 LLM 서빙은 프리필을 위해 GDDR 기반 가속기를, 디코드를 위해 HBM 기반 GPU를 결합하여 성능 저하 없이 더 낮은 비용을 약속합니다. 가장 경제적인 형태로 추진될 경우, 각 단계에 가장 적합한 칩이 서로 다른 벤더(vendor)로부터 나올 수 있기 때문에 MemHA 서빙은 본질적으로 크로스 벤더(cross-vendor) 방식이 됩니다. 이는 단일 벤더 분리 방식이 당연하게 여기는 두 가지 가정, 즉 양쪽 끝단이 네이티브하게 소비할 수 있는 KV 포맷과 공유된 소프트웨어 스택을 깨뜨립니다. 우리는 프리필을 위한 GDDR 기반 가속기와 디코드를 위한 HBM 기반 GPU를 효율적으로 결합하는 MemHA 중심의 분리형 서빙 시스템인 \textbf{HMA-Serve}를 제시합니다. HMA-Serve는 다음과 같은 방법을 통해 이를 달성합니다: (1) 단계별 양자화(phase-wise quantization)를 통해, 고처리량 프리필을 위해 벤더 네이티브 저정밀도(low precision)를 적용하는 동시에 디코드는 고정밀도 BF16으로 유지합니다. (2) 각 레이어의 KV 캐시 전송을 다음 레이어의 프리필과 중첩시켜 첫 번째 토큰 생성 시간(TTFT)을 줄이는 연산-전송 파이프라인(compute-transfer pipeline), 그리고 (3) 네트워크 대역폭과 HBM 사용량을 줄이기 위해 가공되지 않은 양자화된 바이트를 전송하고 디코드 GPU에서 지연된 방식으로 재구성하는 지연된 역양자화(deferred dequantization)를 사용합니다. 네 가지 Qwen3 모델(4B--32B)과 세 가지 프로덕션 트레이스(production traces)에 대해 테스트한 결과, HMA-Serve는 최신 메모리 균질(memory-homogeneous) 방식보다 최대 $3.2 imes$ 높은 굿풋(goodput)을 제공하며, 달러당 굿풋(goodput-per-dollar)은 $4.8 imes$ 더 높았습니다. 이때 생성 품질 벤치마크에서의 측정 가능한 손실은 없었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기