MuKV: 긴 스트리밍 비디오 질의응답을 위한 다중 입도 KV 캐시 압축
요약
MuKV는 긴 스트리밍 비디오 QA의 효율성을 높이기 위해 다중 입도 KV 캐시 압축과 준계층적 검색 방식을 제안합니다. 패치, 프레임, 세그먼트 수준의 압축을 통해 메모리 사용량을 줄이면서도 시각적 세부 사항과 시간적 맥락을 효과적으로 보존합니다.
핵심 포인트
- 다중 입도(multi-grained) KV 캐시 압축 모듈 제안
- 패치, 프레임, 세그먼트 수준의 시각적 표현 추출
- 준계층적 검색 방식을 통한 온라인 QA 효율성 향상
- 메모리 절약과 답변 정확도 간의 균형 달성
긴 스트리밍 비디오 질의응답 (QA)는 증가하는 시각적 토큰 (visual tokens)과 대규모 언어 모델 (LLMs)의 제한된 추론 길이로 인해 여전히 어려운 과제로 남아 있습니다. KV 캐싱 (KV-caching)은 LLM 프리필 (prefill)을 통해 과거 토큰의 키-값 (Key-Value, KV)을 저장하여 더 효율적인 스트리밍 QA를 가능하게 합니다. 그러나 기존 방식들은 매 1~2 프레임마다 캐싱을 수행하여, 불필요한 메모리 사용을 초래하고 프레임 내의 미세한 공간적 세부 사항이나 프레임 간의 시간적 맥락을 손실하게 됩니다. 본 논문은 긴 스트리밍 비디오 QA의 효율성과 정확도를 모두 향상시키기 위해 다중 입도 (multi-grained) KV 캐시 압축 모듈과 준계층적 (semi-hierarchical) 검색 방식을 특징으로 하는 MuKV를 제안합니다. 오프라인 KV 캐시를 위해, MuKV는 패치 (patch), 프레임 (frame), 세그먼트 (segment) 수준에서 시각적 표현을 추출합니다. 이러한 다중 수준의 입도는 국소적 단서 (local cues)와 전역적 시간 맥락 (global temporal context)을 모두 보존하는 동시에, 셀프 어텐션 (self-attention)과 주파수 (frequency)에 의해 유도되는 이중 신호 토큰 압축 메커니즘을 통해 효율성을 유지합니다. 온라인 QA를 위해, MuKV는 답변 생성을 위한 관련 KV 캐시를 검색하는 준계층적 검색 방법을 설계합니다. 긴 스트리밍 비디오 QA 벤치마크에 대한 실험 결과, MuKV는 메모리와 온라인 QA 효율성을 희생하지 않으면서 답변 정확도를 크게 향상시킴을 보여주었습니다. 또한, 우리의 압축 메커니즘만으로도 베이스라인 대비 답변 정확도, 메모리, QA 효율성 전반에 걸쳐 일관된 이점을 가져오며 매우 효과적인 기여를 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기