arXiv논문2026. 06. 01. 11:09

메모리 제한적이지만 대역폭 제한적이지는 않음: Batch-1 LLM 디코딩에서의 물리적 AI 추론 격차

요약

물리적 AI 시스템의 Batch-1 디코딩 워크로드가 단순히 메모리 대역폭에만 의존하지 않음을 분석합니다. NVIDIA H100과 L4 GPU 비교를 통해 고성능 GPU일수록 런치 사이드 오버헤드가 지연 시간에 미치는 영향이 크다는 점을 밝혀냈습니다.

핵심 포인트

Batch-1 디코딩은 메모리 대역폭 외에 런치 사이드 오버헤드의 영향을 크게 받음
H100과 같은 고성능 GPU는 L4 대비 피크 HBM 대역폭 활용률이 현저히 낮음
CUDA Graphs 적용 시 고성능 GPU에서 더 유의미한 지연 시간 개선 효과 발생
양자화 기술 적용 시 실제 메모리 절감 효과가 지연 시간 단축으로 직결되지 않을 수 있음

로봇, 자율 주행 차량, Embodied Agents (체화된 에이전트) 및 Edge Copilots (엣지 코파일럿)를 포함한 물리적 AI (Physical AI) 시스템은 클라우드 LLM 서빙과는 다른 추론 워크로드(Inference Workload)를 실행하는 경우가 많습니다. 즉, 하나의 로봇, 카메라 피드 또는 사용자 세션이 다음 토큰을 기다리는 단일 스트림, Batch-1 자기회귀 디코딩 (Autoregressive Decode) 방식입니다. 이 워크로드는 보통 메모리 대역폭 제한적 (Memory-bandwidth-bound)이라고 설명됩니다. 각 디코딩 단계는 모델 가중치 (Model Weights)와 활성 KV 캐시 (KV Cache)를 스트리밍하므로, 지연 시간 (Latency)은 피크 HBM 대역폭 (Peak HBM Bandwidth)에 따라 확장되어야 합니다. 우리는 이러한 설명이 사실이지만 불완전하다는 것을 보여줍니다. 우리는 4개의 NVIDIA GPU(H100 SXM5, A100-80GB SXM4, L40S, L4)에 걸쳐 7~8B급 GQA 트랜스포머 (Transformers) 3종에 대한 Batch-1 디코딩을 측정했습니다. 제어된 bf16 SDPA 설정 하에서 2048부터 16384까지의 컨텍스트 길이 (Context Lengths)를 평가하여 44개의 유효한 셀 (Cells)을 생성했습니다. 달성된 피크 HBM 대역폭의 비율은 피크 대역폭이 높아질수록 감소합니다. 주요 지표인 Qwen-2.5-7B ctx=2048 셀에서 L4는 분석적 메모리 하한선 (Analytic Memory Floor)의 약 81%에 도달하는 반면, H100은 27%에만 도달합니다. 물리적 AI 디코딩은 메모리 지배적 (Memory-dominated)이지만, 더 빠른 메모리가 비례적인 지연 시간 이득으로 이어지지는 않습니다. 우리는 CUDA Graphs A/B 실험을 통해 누락된 항을 테스트했습니다. ctx=2048에서 H100의 경우, CUDA Graphs는 N=10개의 새로운 세션에 대해 1.259배의 디코딩 지연 시간 개선을 보여주었으며, 95% 부트스트랩 신뢰 구간은 1.253에서 1.267 사이였습니다. L4에서는 동일한 개입이 1.028배의 개선만을 제공했습니다. 이를 통해 빠른 GPU에서는 가시화되지만 대역폭 제한적인 느린 GPU에서는 대부분 숨겨져 있는 런치 사이드 오버헤드 (Launch-side Overhead)를 분리해낼 수 있습니다. 배포 측면의 시사점은 런타임 (Runtime)이 메모리 절감을 실제로 실현할 때만 메모리 절약이 의미가 있다는 것입니다. L4에서 bf16 디코딩은 메모리 하한선에 가깝게 위치하지만, 일반적인 양자화 경로 (Quantised Paths)는 기대되는 4배의 가중치 트래픽 감소를 회복하지 못합니다. bnb-nf4는 59.36 ms/step에 도달하고, AutoAWQ+Marlin은 62.32 ms/step인 bf16 베이스라인에서 45.24 ms/step에 도달합니다. Ada-tuned int4 커널을 사용하는 GPTQ+ExLlamaV2는 17.36 ms/step에 도달합니다.

AI 자동 생성 콘텐츠

원문 바로가기

메모리 제한적이지만 대역폭 제한적이지는 않음: Batch-1 LLM 디코딩에서의 물리적 AI 추론 격차

요약

핵심 포인트

댓글