arXiv논문2026. 05. 08. 16:53

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic

요약

UniPrefill은 대형 언어 모델(LLMs)의 긴 컨텍스트 처리 추론 효율성을 개선하기 위해 제안된 전역적인 Prefill 가속 프레임워크입니다. 기존 연구들이 희소 어텐션에만 집중되어 있어 다양한 아키텍처나 연속적 배치 환경에서 성능 저하를 겪고 통합이 어려웠던 문제를 해결합니다. UniPrefill은 모든 모델 아키텍처에 적용 가능하며, vLLM과 같은 현대 추론 엔진의 스케줄링 전략을 확장하여 Prefill-Decode 동시 처리 및 텐서 병렬 처리를 지원함으로써 Time-To-First-Token (TTFT)에서 최대 2.1배의 속도 향상을 달성합니다.

핵심 포인트

UniPrefill은 모든 모델 아키텍처에 적용 가능한 범용적인 Prefill 가속 프레임워크입니다.
기존의 가속화 기법들은 희소 어텐션에 국한되거나 연속적 배치(continuous batching)와 호환되지 않는 한계가 있었습니다.
UniPrefill은 vLLM과 같은 현대 추론 엔진에 원활하게 통합되어 Prefill-Decode 동시 처리 및 텐서 병렬 처리를 지원합니다.
실험 결과, UniPrefill은 Time-To-First-Token (TTFT)에서 최대 2.1배의 속도 향상을 보여줍니다.

대형 언어 모델 (LLMs) 이 계속 빠르게 발전함에 따라, 그들은 점점 더 능력이 높아지지만 동시에 더 긴 컨텍스트 길이를 요구하게 됩니다. 긴 컨텍스트 처리의 추론 효율성을 개선하기 위해 최근에는 몇 가지 새로운 저 복잡도 하이브리드 아키텍처가 제안되어, 긴 컨텍스트 추론의 계산 부담을 효과적으로 완화했습니다. 그러나 기존 연구는 주로 희소 attention 메커니즘에 집중되어 있으며, 이는 전체 attention 모델을에서만 최대 속도 향상을 달성합니다. 이러한 가속화 접근법을 선형/전체 attention 하이브리드 또는 슬라이딩 윈도우/전체 attention 하이브리드와 같은 새로운 아키텍처로 이전할 때, 상당한 성능 저하를 겪게 됩니다. 또한, 이러한 방법들은 일반적으로 연속적 배치 (continuous batching) 와 호환되지 않아 vLLM 과 같은 현대 추론 엔진에 통합하기 어렵습니다. 이 목적을 위해 우리는 UniPrefill 을 제안합니다. 이는 거의 모든 모델 아키텍처에 적용 가능한 prefill 가속 프레임워크로, 토큰 수준에서 모델의 계산을 직접적으로 가속화합니다. 우리는 UniPrefill 을 연속적 배치 연산자로 구현하고 vLLM 의 스케줄링 전략을 확장하여 UniPrefill 에 대해 native 로 prefill-decode 동시 처리 및 텐서 병렬 (tensor parallel) 을 지원하며, 이를 vLLM 에의 원활한 통합을 가능하게 합니다. UniPrefill 은 Time-To-First-Token (TTFT) 에서 최대 2.1 배의 속도 향상을 달성하며, 가속화 효과는 동시 요청 수에 따라 더욱 두드러집니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic

요약

핵심 포인트

댓글