SeKV: 긴 컨텍스트 LLM 추론을 위한 계층적 시맨틱 메모리 기반 해상도 적응형 KV 캐시
요약
SeKV는 긴 컨텍스트 LLM의 메모리 병목을 해결하기 위해 계층적 시맨틱 메모리를 활용하는 해상도 적응형 KV 캐시 기술입니다. GPU에는 요약 벡터를, CPU에는 SVD 기저를 저장하여 필요할 때만 토큰 수준으로 정밀하게 재구성합니다. 이를 통해 성능 저하를 최소화하면서 GPU 메모리 사용량을 53.3% 절감했습니다.
핵심 포인트
- 계층적 메모리 구조를 통한 GPU-CPU 효율적 활용
- 엔트로피 가이드 시맨틱 스팬 기반의 정보 보존
- 온디맨드 토큰 수준 재구성을 통한 정밀한 검색 지원
- 기존 모델 동결 상태에서 최소한의 파라미터로 학습 가능
- 128K 컨텍스트 기준 GPU 메모리 53.3% 절감 효과
대규모 언어 모델(Large language models)은 점점 더 긴 컨텍스트(long contexts)에서 작동하고 있으며, 여기서 KV 캐시(KV cache)는 지배적인 메모리 병목 현상이 됩니다. KV 캐시의 크기는 시퀀스 길이(sequence length)에 따라 선형적으로 증가하며 디코딩(decoding) 과정 내내 유지되어야 하므로, 압축 없이는 전체 GPU 캐싱(GPU caching) 비용이 매우 비싸집니다. 기존의 KV 캐시 압축 방법들은 효율성과 충실한 컨텍스트 보존(context preservation) 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 토큰 제거(Token eviction)는 정보를 폐기하며, 시맨틱 그룹화(semantic grouping)는 프리필(prefill) 시점에 압축 결정을 고정해 버립니다. 이 두 방식 모두 생성 과정에서 특정 토큰이 중요해졌을 때, 이미 압축된 구간으로부터 토큰 수준의 세부 정보를 복구할 수 없습니다.
이에 대한 해결책으로, 우리는 정보를 폐기하지 않으면서 컨텍스트를 엔트로피 가이드 시맨틱 스팬(entropy-guided semantic spans)으로 구성하고 이를 GPU-CPU 메모리 계층(memory hierarchy)에 저장하는 해상도 적응형 시맨틱 KV 캐시인 SeKV를 제안합니다. 각 스팬(span)은 거친 라우팅(coarse routing)을 위해 GPU에 경량 요약 벡터(lightweight summary vector)를 유지하고, 온디맨드(on-demand) 토큰 수준 재구성(token-level reconstruction)을 위해 CPU에 저차원 SVD 기저(low-rank SVD basis)를 저장합니다. 학습된 줌인(zoom-in) 메커니즘은 디코딩 중에 쿼리 관련 스팬을 선택적으로 확장하여, GPU에 전체 KV 캐시를 실체화(materializing)하지 않고도 정밀한 검색을 가능하게 합니다. SeKV는 기본 LLM을 완전히 동결(frozen) 상태로 유지하면서 0.05% 미만의 학습 가능한 파라미터(trainable parameters)만을 추가하여 적응형 토큰 수준 재구성을 구현합니다. 4개의 벤치마크를 통해, SeKV는 가장 강력한 시맨틱 압축 베이스라인보다 평균 5.9% 성능을 향상시키는 동시에, 128K 컨텍스트에서 전체 KV 캐싱 대비 GPU 메모리를 53.3% 절감했습니다. 코드는 https://github.com/AmirAbaskohi/SeKV 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기