확장 가능한 장 문맥 LLM 서비스 제공을 위한 희소 주의력과 계층적 메모리 통합
요약
본 논문은 장 문맥 LLM 서비스 제공 시 발생하는 KV 캐시 메모리 병목 현상을 해결하기 위해 SPIN이라는 새로운 추론 프레임워크를 제안합니다. SPIN은 동적 희소 주의력과 계층적 KV 저장을 통합하여, 이 두 기술의 시스템 수준 이점을 극대화하는 데 중점을 둡니다. 구체적으로, 공유 페이지 기반 파티션 추상화를 통해 다양한 희소성을 통합하고, GPU 친화적인 LRU 정책을 적용하며, 최적화된 메타데이터 레이아웃을 구현하여 vLLM 대비 처리량과 응답 시간을 크게 개선합니다.
핵심 포인트
- SPIN은 동적 희소 주의력(dynamic sparse attention)과 계층적 KV 저장소를 결합한 통합 추론 프레임워크입니다.
- 기존의 희소성 알고리즘들은 시스템 수준에서 이점을 얻기 어려웠는데, SPIN은 이를 공동 설계하여 해결했습니다.
- GPU 친화적인 버킷화된 LRU 정책을 사용하여 PCIe 라운트-트립을 줄이고 KV 캐시 관리를 최적화합니다.
- SPIN 프레임워크는 vLLM 대비 처리량(throughput)을 1.66~5.66배 높이고, TTFT(Time To First Token)를 7~9배 낮추는 성능 향상을 입증했습니다.
장 문맥 (long-context) 대형 언어 모델 (LLM) 의 서비스 제공은 성장하는 KV 캐시에 대한 주의력 비용에 의해 병목화되고 있습니다. 동적 희소 주의력 (dynamic sparse attention) 은 디코딩 단계마다 KV 상태의 작은 쿼리 의존성 하위 집합만 접근하고 KV 저장소를 CPU 메모리로 확장함으로써 완화를 약속합니다. 그러나 실제로는 이러한 알고리즘적 절감은 거의 종단 간 시스템 수준의 이득으로 전환되지 않으며, 희소 방법은 일반적으로 다른粒度 (granularities) 에서 작동하므로 임의의, 알고리즘별 구현에 의존합니다. 동시에 계층적 KV 저장은 새로운 시스템 병목 현상을 도입합니다: GPU-CPU 경계를 가로질러 세분화된 불규칙한 KV 하위 집합을 검색하는 것은 희소성의 이점을 쉽게 소멸시킬 수 있습니다. 우리는 계층적 KV 저장소와 함께 실행 파이프라인을 공동 설계하는 희소 주의력 인식 추론 프레임워크인 SPIN 을 제시합니다. 이는 세 가지 기술을 통해 구현됩니다: (1) 서로 다른 희소粒度를 공유된 페이지 기반 KV 기판에 매핑하는 통합 파티션 추상화; (2) 요청당 HBM 예산을 동적으로 크기를 조절하고 PCIe 라운트-트립을 줄이기 위해 GPU 친화적인 버킷화된 LRU 정책을 사용하는 위치 인식 KV 캐시 관리자; 그리고 (3) 최악의 경우 주소 공간이 아닌 활성 작업 집합에 맞춰 크기를 설정하는 2 단계 계층적 메타데이터 레이아웃입니다. vLLM 기반이며 세 가지 대표적인 희소 주의력 알고리즘을 기반으로 구축된 SPIN 은 vLLM 대비 종단 간 처리량을 1.665.66 배 높이고 TTFT 를 79 배 낮추며, 기존 희소 주의력 구현 대비 TPOT 를 최대 58% 줄입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기