본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:20

Attention Once Is All You Need: Stateful Transformers를 이용한 효율적인 스트리밍 추론

요약

본 기사는 스트리밍 워크로드에서 발생하는 과도한 프리필 비용 문제를 해결하기 위해 상태 유지 세션(stateful sessions) 기반의 데이터 중심 계산 모델을 제안합니다. 이 모델은 지속적으로 업데이트되는 KV 캐시를 활용하여, 쿼리 지연 시간을 누적 컨텍스트 크기와 무관하게 O(|q|)로 낮춥니다. 또한, Flash Queries와 같은 기능을 통해 유휴 GPU 사이클을 활용하고, 개선된 연속 배치 스케줄러를 통해 여러 상태 유지 세션이 단일 GPU에서 효율적으로 공존할 수 있음을 입증했습니다.

핵심 포인트

  • 기존 요청 기반 추론 엔진의 O(n) 프리필 비용 문제를 해결하는 데이터 기반 계산 모델 제시.
  • 지속적인 KV 캐시 업데이트를 통해 쿼리 지연 시간을 컨텍스트 크기와 무관하게 O(|q|)로 최적화.
  • Flash Queries 기능을 도입하여 유휴 GPU 사이클을 활용하고 사용자 질문 전에 답변을 미리 제공할 수 있음.
  • 셀 예산 허가 및 접두사 인식 그룹 프리필 기능으로 다수의 상태 유지 세션을 단일 GPU에서 효율적으로 관리 가능.
  • 스트리밍 시장 데이터 벤치마크에서 기존 주요 추론 엔진 대비 최대 5.9배의 속도 향상을 달성함.

기존의 Transformer 추론 엔진은 요청 기반(request-driven)으로 작동하며, 모든 쿼리(query)마다 O(n)의 프리필(prefill) 비용을 지불합니다. 데이터가 지속적으로 도착하고 쿼리가 계속해서 커지는 컨텍스트(context)를 탐색하는 스트리밍 워크로드(streaming workloads)에서 이러한 비용은 매우 과도합니다. 우리는 상태 유지 세션(stateful sessions)을 중심으로 하는 데이터 기반(data-driven) 계산 모델을 소개합니다. 이 모델은 새로운 데이터가 도착함에 따라 점진적으로 업데이트되는 지속적인 KV 캐시(KV cache)를 사용하여, 프리필(prefill) 과정을 임계 경로(critical path)에서 제외함으로써 쿼리 지연 시간(query latency)을 누적된 컨텍스트 크기와 무관하게 O(|q|)로 만듭니다. 이를 바탕으로, Flash Queries는 데이터 도착 사이의 유휴 GPU 사이클을 활용하여 등록된 질문을 사전 평가하고 사용자가 질문하기 전에 캐시된 답변을 반환합니다. 이러한 패턴은 요청 사이에 중간 상태를 폐기하는 상태 비저장(stateless) 엔진에서는 구조적으로 불가능합니다. 셀 예산 허가(cell-budget admission) 및 접두사 인식 그룹 프리필(prefix-aware grouped prefill) 기능을 갖춘 멀티 테넌트 연속 배치 스케줄러(multi-tenant continuous-batching scheduler)는 완전한 이차 자기 주의 집중(quadratic self-attention)을 유지하면서도 수십 개의 상태 유지 세션이 단일 GPU에서 공존할 수 있도록 합니다. 스트리밍 시장 데이터 벤치마크에서 참조 구현체는 누적된 컨텍스트가 증가함에 따라 쿼리 지연 시간을 일정하게 유지하면서, 기존 추론 엔진(vLLM, SGLang, TensorRT-LLM, llama.cpp) 대비 최대 5.9배의 속도 향상을 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0