arXiv논문2026. 06. 01. 11:31

GRKV: 긴 컨텍스트 LLM을 위한 학습 불필요 KV 캐시 압축용 전역 회귀 (Global Regression)

요약

GRKV는 긴 컨텍스트 LLM의 메모리 오버헤드를 줄이기 위한 학습 불필요(training-free) KV 캐시 압축 방법론입니다. 리지 회귀를 활용해 제거된 토큰의 정보를 유지된 토큰에 분산시켜, 기존 스팬 기반 방식의 과도한 병합 문제를 해결합니다.

핵심 포인트

학습 없이 적용 가능한 KV 캐시 압축 기술 제안
리지 회귀 기반의 균형 잡힌 토큰 병합 방식 도입
과도한 병합 및 정보 손실 문제 해결
LongBench 및 RULER 벤치마크에서 성능 향상 입증

확장된 컨텍스트 길이(context lengths)를 가진 대규모 언어 모델(LLMs)은 이전 토큰들에 대한 어텐션(attention)을 지원하기 위해 키-값 (KV) 캐시에 의존합니다. 그러나 KV 캐시를 유지하는 것은 상당한 메모리 오버헤드(memory overhead)를 발생시키며, 이는 제거(eviction)와 병합(merging)을 통해 고정된 예산을 강제하는 KV 캐시 압축 방법론의 동기가 됩니다. 현대적인 제거 방법들은 연속적인 스팬(span)을 보존하는 것이 경험적으로 효과적이고 의미론적 일관성(semantic coherence)을 더 잘 유지하기 때문에, 점점 더 스팬 기반 유지(span-based retention) 방식을 채택하고 있습니다. 하지만 제거 후 병합(post-eviction merging)과 결합될 경우, 스팬 기반 유지는 병합을 소수의 스팬 경계 캐리어 토큰(span-boundary carrier tokens)에 집중시켜, 과도한 병합(over-merging)을 악화시키고 정보 손실을 증가시키는 매우 불균형한 병합 패턴을 생성합니다. 이러한 불균형을 해결하기 위해, 우리는 압축된 캐시와 전체 캐시의 어텐션 출력 사이의 차이를 직접적으로 최소화하는 학습 불필요 (training-free) KV 캐시 병합 방법인 GRKV (Global Regression for KV Cache)를 제안합니다. GRKV는 리지 회귀 (ridge-regression) 기반의 병합 단계를 사용하여 제거된 토큰의 정보를 유지된 토큰들에 분산시키는 한편, 과도한 평활화 (over-smoothing)를 방지하기 위해 업데이트를 정규화(regularizing)합니다. LongBench 및 RULER 긴 컨텍스트 벤치마크 전반에 걸쳐, GRKV는 최소한의 오버헤드로 전체 성능을 향상시키는 유일한 병합 방법입니다.

AI 자동 생성 콘텐츠

원문 바로가기

GRKV: 긴 컨텍스트 LLM을 위한 학습 불필요 KV 캐시 압축용 전역 회귀 (Global Regression)

요약

핵심 포인트

댓글