Multi-Segment Attention: 더 빠른 대규모 언어 모델 (LLM) 서빙을 위한 효율적인 KV-Cache 관리 기술
요약
LLM 추론 시 GPU 어텐션 커널 성능을 고려하여 KV 캐시를 관리하는 AsymCache 시스템을 제안합니다. MSA, 최적화된 캐시 제거 정책, 적응형 스케줄러를 통해 메모리 효율성과 연산 속도를 동시에 개선합니다.
핵심 포인트
- GPU 어텐션 커널 성능과 정렬된 연산-지연시간 인지형 KV 캐시 관리
- Multi-Segment Attention(MSA)을 통한 비연속적 컨텍스트 처리 효율화
- TTFT 최대 2.03배, TPOT 최대 1.71배 성능 향상 달성
- 에이전트 서빙 시스템 통합 시 작업 지연시간 최대 18.1% 감소
대규모 언어 모델 (Large Language Model, LLM) 추론은 중복된 어텐션 (Attention) 계산을 피하기 위해 키-값 (Key-Value, KV) 캐시에 의존합니다. 근사적 KV 캐시 유지 기술은 모델의 정확도를 희생하여 메모리 사용량을 줄이는 반면, 무손실 (Lossless) 방식은 정확한 출력을 보존하기 위해 GPU 메모리에서 KV 캐시 블록을 제거했다가 필요할 때 재구성합니다. 기존의 무손실 KV 캐시 관리 시스템은 주로 접근 빈도나 위치 기반 휴리스틱 (Heuristics)에 근거하여 제거 결정을 내리며, 서로 다른 KV 캐시 블록이 GPU 어텐션 커널 (Attention Kernel)의 실행 효율성에 어떻게 영향을 미치는지 고려하지 않습니다. 본 논문에서는 캐시 상주 결정(Cache residency decisions)을 GPU 어텐션 커널 성능과 명시적으로 정렬하는 LLM 추론용 연산-지연시간 인지 (Computation-latency-aware) KV 캐시 관리 시스템인 AsymCache를 제안합니다. 이 시스템은 세 가지 핵심 구성 요소를 포함합니다: 효율적인 비연속적 KV 컨텍스트 처리를 위한 Multi-Segment Attention (MSA), 히트율 (Hit rate)과 위치 인지 재계산 비용을 공동으로 최적화하는 캐시 제거 정책 (Cache eviction policy), 그리고 높은 하드웨어 활용도를 위한 적응형 청킹 스케줄러 (Adaptive chunking scheduler)입니다. 실험 결과, AsymCache는 최신 베이스라인 대비 첫 토큰 생성 시간 (Time To First Token, TTFT)을 최대 1.90-2.03배, 토큰당 생성 시간 (Time-Per-Output-Token, TPOT)을 1.62-1.71배 단축하였으며, 이를 통해 일반적인 워크로드에서 해당 방법론의 효과를 확인하고 연산 효율성과 캐시 히트율 사이의 균형을 맞추려는 설계 목표를 검증했습니다. 또한, AsymCache의 저수준 (Low-level) 설계는 Continuum과 같은 에이전트 서빙 시스템에 원활하게 통합될 수 있으며, 이를 통해 평균 작업 지연시간을 최대 18.1%까지 추가로 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기