본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 20:44

저지연 대규모 언어 모델 추론을 위한 하이브리드 JIT-CUDA 그래프 최적화

요약

본 논문은 대규모 언어 모델(LLMs)의 추론 지연 시간 문제를 해결하기 위해 JIT 컴파일과 CUDA 그래프 실행을 결합한 하이브리드 런타임 프레임워크를 제안합니다. 이 프레임워크는 트랜스포머 추론 과정을 정적 및 동적 구성 요소로 분할하여, 각각 CUDA 그래프 재생 또는 JIT 커널 처리를 통해 효율적으로 실행합니다. 실험 결과, LLaMA-2 7B 모델에서 하이브리드 런타임은 첫 토큰 생성 시간(TTFT)을 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 짧은 시퀀스 워크로드의 실용적인 배포에 효과적임을 입증했습니다.

핵심 포인트

  • LLM 추론의 주요 병목 현상은 상호작용적이고 짧은 시퀀스 설정에서의 높은 지연 시간과 커널 오버헤어임.
  • 제안된 하이브리드 런타임은 JIT 컴파일(동적)과 CUDA 그래프 실행(정적)을 결합하여 추론 효율성을 극대화함.
  • 이 접근 방식은 트랜스포머 디코딩 과정을 정적/동적 구성 요소로 분할하고, 비동기 그래프 캡처 및 재사용을 가능하게 함.
  • 실험적으로 TTFT를 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 실시간 AI 애플리케이션에 적합함을 입증함.

대규모 언어 모델 (LLMs) 은 자연어 및 멀티모달 작업 전반에서 강력한 성능을 달성했으나, 상호작용적이고 짧은 시퀀스 설정에서 특히 추론 지연 시간과 커널 실행 오버헤드로 인해 실용적인 배포가 제한받고 있습니다. 본 논문은 자동회귀 디코딩 중 런타임 유연성을 유지하면서 실행 오버헤드를 줄이기 위해 재적시 컴파일 (JIT) 을 CUDA 그래프 실행과 결합한 하이브리드 런타임 프레임워크를 제시합니다. 이 프레임워크는 트랜스포머 추론을 정적 구성 요소와 동적 구성 요소로 분할하여, 정적 구성 요소는 CUDA 그래프 재생을 통해 실행하고 동적 구성 요소는 JIT 컴파일된 커널을 통해 처리함으로써 디코딩 단계 간 비동기 그래프 캡처 및 재사용을 가능하게 합니다. 우리는 단일 GPU 와 배치 크기 1 추론을 사용하여 프롬프트 길이가 10 토큰에서 500 토큰까지인 LLaMA-2 7B 에서 제안된 방법을 평가했습니다. 실험 결과, 하이브리드 런타임은 첫 번째 토큰까지의 시간 (TTFT) 을 최대 66.0% 줄이고, 이 영역에서 TensorRT-LLM 보다 낮은 P99 지연 시간을 달성합니다. 이러한 결과는 하이브리드 JIT-CUDA 그래프 실행이 짧은 시퀀스 LLM 워크로드의 추론 지연 시간과 분산을 효과적으로 줄일 수 있음을 보여주며, 이는 지연 시간에 민감한 AI 애플리케이션을 위한 실용적인 최적화 전략임을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0