LVLM의 KV 캐시 경량화: LightKV 제안
요약
본 논문은 대형 비전-언어 모델(LVLMs)의 추론 과정에서 발생하는 과도한 GPU 메모리 오버헤드를 해결하기 위해 LightKV라는 새로운 KV 캐시 경량화 기법을 제안합니다. LightKV는 텍스트 프롬프트에 의해 안내되는 교차 모달리티 메시지 전달 방식을 활용하여 비전 토큰 간의 중복성을 효과적으로 포착하고, 사전 채우기 단계에서 점진적으로 KV 캐시를 압축합니다. 실험 결과, LightKV는 원본 비전 토큰의 55%만으로도 KV 캐시 크기를 절반으로 줄이고 연산량을 최대 40% 감소시키면서도 기존 성능을 유지하는 뛰어난 효율성을 입증했습니다.
핵심 포인트
- LVLM 추론 시, 많은 비전 토큰은 GPU 메모리 오버헤드를 유발하는 주요 원인입니다.
- LightKV는 텍스트 프롬프트 기반의 교차 모달리티 메시지 전달을 통해 비전 토큰 간 중복성을 활용하여 KV 캐시를 압축합니다.
- 이 방법은 기존의 비전 전용 압축 전략과 차별화되는 '프롬프트 가이드' 메커니즘을 사용합니다.
- 실험적으로, LightKV는 원본 대비 55%의 토큰만으로 KV 캐시 크기를 절반으로 줄이고 연산량을 최대 40%까지 감소시키는 효율성을 보여주었습니다.
키-값 (Key-Value, KV) 캐시는 추론에 있어 현대 대형 비전-언어 모델 (Large Vision-Language Models, LVLMs) 의 사실상 표준 구성 요소가 되었습니다. 이는 대형 언어 모델 (Large Language Models, LLMs) 의 디코딩 효율성을 향상시키지만, 사전 채우기 (prefill) 단계에서 처리되는 비전 토큰의 수가 많기 때문에 LVLM 에 직접 적용될 경우 상당한 GPU 메모리 오버헤드를 유발합니다. 이 문제를 해결하기 위해, 우리는 비전 토큰 임베딩 간의 중복성을 활용하여 KV 캐시 크기를 줄이는 새로운 접근법인 LightKV 를 제안합니다. 텍스트 프롬프트에 의해 안내된 LightKV 는 교차 모달리티 메시지 전달 (cross-modality message passing) 을 통해 비전 토큰 간에 정보 있는 메시지를 집계하고, 사전 채우기 단계에서 점진적으로 압축합니다. 이 프롬프트 기반 가이드는 기존 비전 전용 압축 전략과 구별됩니다. 우리는 8 개의 오픈소스 LVLM 과 8 개의 공개 벤치마크 데이터셋 (예: MME 와 SeedBench) 에서 LightKV 를 평가했습니다. 실험 결과는 다음과 같습니다: 원본 비전 토큰의 55% 만으로도, LightKV 는 (a) 비전 토큰 KV 캐시 크기를 절반으로 줄이고, (b) 연산량을 최대 40% 감소시키며, (c) 일반적인 성능을 유지하면서 기존 베이스라인에 비해 현저히 우수한 성능을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기