arXiv논문2026. 04. 28. 20:44

저지연 대규모 언어 모델 추론을 위한 하이브리드 JIT-CUDA 그래프 최적화

요약

본 논문은 대규모 언어 모델(LLMs)의 추론 지연 시간 문제를 해결하기 위해 JIT 컴파일과 CUDA 그래프 실행을 결합한 하이브리드 런타임 프레임워크를 제안합니다. 이 프레임워크는 트랜스포머 추론 과정을 정적 및 동적 구성 요소로 분할하여, 각각 CUDA 그래프 재생 또는 JIT 커널 처리를 통해 효율적으로 실행합니다. 실험 결과, LLaMA-2 7B 모델에서 하이브리드 런타임은 첫 토큰 생성 시간(TTFT)을 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 짧은 시퀀스 워크로드의 실용적인 배포에 효과적임을 입증했습니다.

핵심 포인트

LLM 추론의 주요 병목 현상은 상호작용적이고 짧은 시퀀스 설정에서의 높은 지연 시간과 커널 오버헤어임.
제안된 하이브리드 런타임은 JIT 컴파일(동적)과 CUDA 그래프 실행(정적)을 결합하여 추론 효율성을 극대화함.
이 접근 방식은 트랜스포머 디코딩 과정을 정적/동적 구성 요소로 분할하고, 비동기 그래프 캡처 및 재사용을 가능하게 함.
실험적으로 TTFT를 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 실시간 AI 애플리케이션에 적합함을 입증함.

대규모 언어 모델 (LLMs) 은 자연어 및 멀티모달 작업 전반에서 강력한 성능을 달성했으나, 상호작용적이고 짧은 시퀀스 설정에서 특히 추론 지연 시간과 커널 실행 오버헤드로 인해 실용적인 배포가 제한받고 있습니다. 본 논문은 자동회귀 디코딩 중 런타임 유연성을 유지하면서 실행 오버헤드를 줄이기 위해 재적시 컴파일 (JIT) 을 CUDA 그래프 실행과 결합한 하이브리드 런타임 프레임워크를 제시합니다. 이 프레임워크는 트랜스포머 추론을 정적 구성 요소와 동적 구성 요소로 분할하여, 정적 구성 요소는 CUDA 그래프 재생을 통해 실행하고 동적 구성 요소는 JIT 컴파일된 커널을 통해 처리함으로써 디코딩 단계 간 비동기 그래프 캡처 및 재사용을 가능하게 합니다. 우리는 단일 GPU 와 배치 크기 1 추론을 사용하여 프롬프트 길이가 10 토큰에서 500 토큰까지인 LLaMA-2 7B 에서 제안된 방법을 평가했습니다. 실험 결과, 하이브리드 런타임은 첫 번째 토큰까지의 시간 (TTFT) 을 최대 66.0% 줄이고, 이 영역에서 TensorRT-LLM 보다 낮은 P99 지연 시간을 달성합니다. 이러한 결과는 하이브리드 JIT-CUDA 그래프 실행이 짧은 시퀀스 LLM 워크로드의 추론 지연 시간과 분산을 효과적으로 줄일 수 있음을 보여주며, 이는 지연 시간에 민감한 AI 애플리케이션을 위한 실용적인 최적화 전략임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저지연 대규모 언어 모델 추론을 위한 하이브리드 JIT-CUDA 그래프 최적화

요약

핵심 포인트

댓글