SeKV: 긴 컨텍스트 LLM 추론을 위한 계층적 시맨틱 메모리 기반 해상도 적응형 KV 캐시

대규모 언어 모델(Large language models)은 점점 더 긴 컨텍스트(long contexts)에서 작동하고 있으며, 여기서 KV 캐시(KV cache)는 지배적인 메모리 병목 현상이 됩니다. KV 캐시의 크기는 시퀀스 길이(sequence length)에 따라 선형적으로 증가하며 디코딩(decoding) 과정 내내 유지되어야 하므로, 압축 없이는 전체 GPU 캐싱(GPU caching) 비용이 매우 비싸집니다. 기존의 KV 캐시 압축 방법들은 효율성과 충실한 컨텍스트 보존(context preservation) 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 토큰 제거(Token eviction)는 정보를 폐기하며, 시맨틱 그룹화(semantic grouping)는 프리필(prefill) 시점에 압축 결정을 고정해 버립니다. 이 두 방식 모두 생성 과정에서 특정 토큰이 중요해졌을 때, 이미 압축된 구간으로부터 토큰 수준의 세부 정보를 복구할 수 없습니다.

이에 대한 해결책으로, 우리는 정보를 폐기하지 않으면서 컨텍스트를 엔트로피 가이드 시맨틱 스팬(entropy-guided semantic spans)으로 구성하고 이를 GPU-CPU 메모리 계층(memory hierarchy)에 저장하는 해상도 적응형 시맨틱 KV 캐시인 SeKV를 제안합니다. 각 스팬(span)은 거친 라우팅(coarse routing)을 위해 GPU에 경량 요약 벡터(lightweight summary vector)를 유지하고, 온디맨드(on-demand) 토큰 수준 재구성(token-level reconstruction)을 위해 CPU에 저차원 SVD 기저(low-rank SVD basis)를 저장합니다. 학습된 줌인(zoom-in) 메커니즘은 디코딩 중에 쿼리 관련 스팬을 선택적으로 확장하여, GPU에 전체 KV 캐시를 실체화(materializing)하지 않고도 정밀한 검색을 가능하게 합니다. SeKV는 기본 LLM을 완전히 동결(frozen) 상태로 유지하면서 0.05% 미만의 학습 가능한 파라미터(trainable parameters)만을 추가하여 적응형 토큰 수준 재구성을 구현합니다. 4개의 벤치마크를 통해, SeKV는 가장 강력한 시맨틱 압축 베이스라인보다 평균 5.9% 성능을 향상시키는 동시에, 128K 컨텍스트에서 전체 KV 캐싱 대비 GPU 메모리를 53.3% 절감했습니다. 코드는 https://github.com/AmirAbaskohi/SeKV 에서 확인할 수 있습니다.

Insights

SeKV: 긴 컨텍스트 LLM 추론을 위한 계층적 시맨틱 메모리 기반 해상도 적응형 KV 캐시

요약

핵심 포인트

댓글

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사

WIDER-FAIR: 공정성 평가를 위한 WIDER-FACE 데이터셋의 주석 버전

비선형성 인지 LoRA: 저차원 제약 하에서의 구조적 게이트 적응 (Nonlinearity-Aware LoRA: Structured Gate

TalentCLEF 2026 개요: 인적 자본 관리(Human Capital Management)를 위한 기술 및 직무 타이틀 인텔리전스

자연스러움이 항상 적절한가? TTS 평가를 위한 다양한 도메인별 자연스러움(Naturalness) 및 적절성(Appropriateness) 조사