arXiv논문2026. 04. 30. 16:54

확장 가능한 장 문맥 LLM 서비스 제공을 위한 희소 주의력과 계층적 메모리 통합

요약

본 논문은 장 문맥 LLM 서비스 제공 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위해 SPIN이라는 새로운 추론 프레임워크를 제안합니다. SPIN은 동적 희소 주의력과 계층적 KV 저장을 통합하여, 이 두 기술의 시스템 수준 이점을 극대화하는 데 중점을 둡니다. 구체적으로, 공유 페이지 기반 파티션 추상화를 통해 다양한 희소성을 통합하고, GPU 친화적인 LRU 정책을 적용하며, 최적화된 메타데이터 레이아웃을 구현하여 vLLM 대비 처리량과 응답 시간을 크게 개선합니다.

핵심 포인트

SPIN은 동적 희소 주의력(dynamic sparse attention)과 계층적 KV 저장소를 결합한 통합 추론 프레임워크입니다.
기존의 희소성 알고리즘들은 시스템 수준에서 이점을 얻기 어려웠는데, SPIN은 이를 공동 설계하여 해결했습니다.
GPU 친화적인 버킷화된 LRU 정책을 사용하여 PCIe 라운트-트립을 줄이고 KV 캐시 관리를 최적화합니다.
SPIN 프레임워크는 vLLM 대비 처리량(throughput)을 1.66~5.66배 높이고, TTFT(Time To First Token)를 7~9배 낮추는 성능 향상을 입증했습니다.

장 문맥 (long-context) 대형 언어 모델 (LLM) 의 서비스 제공은 성장하는 KV 캐시에 대한 주의력 비용에 의해 병목화되고 있습니다. 동적 희소 주의력 (dynamic sparse attention) 은 디코딩 단계마다 KV 상태의 작은 쿼리 의존성 하위 집합만 접근하고 KV 저장소를 CPU 메모리로 확장함으로써 완화를 약속합니다. 그러나 실제로는 이러한 알고리즘적 절감은 거의 종단 간 시스템 수준의 이득으로 전환되지 않으며, 희소 방법은 일반적으로 다른粒度 (granularities) 에서 작동하므로 임의의, 알고리즘별 구현에 의존합니다. 동시에 계층적 KV 저장은 새로운 시스템 병목 현상을 도입합니다: GPU-CPU 경계를 가로질러 세분화된 불규칙한 KV 하위 집합을 검색하는 것은 희소성의 이점을 쉽게 소멸시킬 수 있습니다. 우리는 계층적 KV 저장소와 함께 실행 파이프라인을 공동 설계하는 희소 주의력 인식 추론 프레임워크인 SPIN 을 제시합니다. 이는 세 가지 기술을 통해 구현됩니다: (1) 서로 다른 희소粒度를 공유된 페이지 기반 KV 기판에 매핑하는 통합 파티션 추상화; (2) 요청당 HBM 예산을 동적으로 크기를 조절하고 PCIe 라운트-트립을 줄이기 위해 GPU 친화적인 버킷화된 LRU 정책을 사용하는 위치 인식 KV 캐시 관리자; 그리고 (3) 최악의 경우 주소 공간이 아닌 활성 작업 집합에 맞춰 크기를 설정하는 2 단계 계층적 메타데이터 레이아웃입니다. vLLM 기반이며 세 가지 대표적인 희소 주의력 알고리즘을 기반으로 구축된 SPIN 은 vLLM 대비 종단 간 처리량을 1.66~~5.66 배 높이고 TTFT 를 7~~9 배 낮추며, 기존 희소 주의력 구현 대비 TPOT 를 최대 58% 줄입니다.

AI 자동 생성 콘텐츠

원문 바로가기

확장 가능한 장 문맥 LLM 서비스 제공을 위한 희소 주의력과 계층적 메모리 통합

요약

핵심 포인트

댓글