본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:10

LLM 서빙에서의 Speculative Decoding을 위한 해석 가능한 지연 시간 모델

요약

본 연구는 LLM 서빙 환경에서 Speculative Decoding (SD)의 동작을 분석하고 이를 위한 해석 가능한 지연 시간 모델을 개발했습니다. 이 모델은 Little's Law를 활용하여 요청률로부터 유효 배치 크기를 추론하며, 다양한 부하 조건 하에서의 지연 시간을 예측합니다. 연구진은 vLLM을 이용한 광범위한 측정을 통해 이 모델의 정확성을 검증하고, 서버 부하 증가에 따른 속도 향상 감소 원인과 주요 구성 요소(초안 길이, 수락률 등)가 지연 시간에 미치는 영향을 규명했습니다.

핵심 포인트

  • LLM 서빙 환경에서의 Speculative Decoding (SD) 동작을 이해하기 위한 해석 가능한 지연 시간 모델을 제시함.
  • Little's Law를 활용하여 요청률로부터 유효 배치 크기를 추론하고, 이를 통해 LLM 서비스의 부하 의존적 특성을 분석함.
  • 모델은 서버 부하 증가에 따라 속도 향상이 감소하는 현상을 설명하며, SD 구성 요소(초안 길이, 수락률 등)가 지연 시간에 미치는 영향을 정량화함.
  • 제시된 프레임워크는 Mixture of Experts (MoE) 모델로 확장 가능하여 희소 전문가 활성화의 서비스 비용 변화를 분석할 수 있게 함.

Speculative decoding (SD)은 더 작은 초안 모델 (draft model)을 사용하여 여러 토큰을 제안하고, 이를 더 큰 타겟 모델 (target model)이 병렬로 검증함으로써 대규모 언어 모델 (LLM) 추론을 가속화합니다. 기존 연구들은 격리된 환경이나 고정된 배치 (fixed-batch) 설정에서 상당한 속도 향상을 보여주었지만, 실제 운영 중인 서빙 시스템 (serving systems)에서의 SD 동작은 여전히 제대로 이해되지 않고 있습니다. 요청 부하 (request load)는 시간에 따라 변하며, 유효 배치 크기 (effective batch size)는 직접적으로 제어되거나 관찰되기보다는 서빙 시스템으로부터 나타나기 때문입니다. 본 연구에서는 LLM 서빙에서의 SD를 위한 단순하고 해석 가능한 지연 시간 (latency) 모델을 개발합니다. 우리는 리틀의 법칙 (Little's Law)을 사용하여 요청률 (request rate)로부터 유효 배치 크기를 추론하며, 프리필 (prefill), 초안 작성 (drafting), 검증 (verification)에 대한 요청당 수요를 부하 독립적 (load-independent) 성분과 부하 의존적 (load-dependent) 성분으로 분해합니다. 우리는 다양한 검증기 (verifier) 및 초안 작성기 (drafter) 모델 크기, 프리필 및 디코드 (decode) 길이, 요청률, 초안 길이, 수락 확률 (acceptance probabilities)에 대해 vLLM을 이용한 광범위한 측정을 통해 모델을 검증합니다. 이 모델은 관찰된 지연 시간을 정확하게 설명하며, 왜 서버 부하가 증가함에 따라 속도 향상이 종종 감소하는지를 설명하고, 초안 길이, 수락률, 검증기-초안 작성기 크기가 서빙 조건 전반에 걸쳐 지연 시간을 어떻게 형성하는지를 특징짓습니다. 이는 배포된 시스템에서 SD를 구성하는 데 시사점을 제공합니다. 나아가 우리는 이 프레임워크가 Mixture of Experts (MoE) 모델로 어떻게 확장되는지 보여주며, 여기서는 희소 전문가 활성화 (sparse expert activation)가 부하 영역에 따라 유효 서비스 비용을 변화시킵니다. 종합적으로, 우리의 결과는 실제 LLM 서빙 시스템에서의 SD를 이해하기 위한 구조화된 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0