본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:43

WindowQuant: VLM 추론 최적화를 위한 윈도우 레벨 유사성에 기반한 혼합 정밀도 KV 캐시 양자화

요약

WindowQuant는 비디오 언어 모델(VLMs)의 긴 시각 토큰 시퀀스로 인한 추론 지연 및 메모리 문제를 해결하기 위해 제안된 새로운 방법입니다. 이 기법은 윈도우 레벨 유사성 검색을 통해 KV 캐시의 최적 비트 폭 구성을 빠르게 결정하고, 윈도우 레벨 계산으로 양자화 전 KV 캐시를 재배치하여 하드웨어 효율성을 높입니다. 실험 결과, WindowQuant는 기존 VLM 모델 및 KV 캐시 양자화 방법들보다 우수한 성능을 보여주었습니다.

핵심 포인트

  • VLM의 긴 시각 토큰 시퀀스는 높은 추론 지연과 GPU 메모리 사용량을 유발하는 주요 병목 현상입니다.
  • WindowQuant는 윈도우 레벨 유사성 검색을 사용하여 KV 캐시의 최적 비트 폭 구성을 효율적으로 결정합니다.
  • 이 방법은 양자화 전 KV 캐시를 재배치하여 혼합 정밀도 사용으로 인한 하드웨어 비효율성을 극복합니다.
  • WindowQuant는 다양한 데이터셋에서 기존 VLM 및 KV 캐시 최적화 기법들을 능가하는 성능을 입증했습니다.

최근 비디오 언어 모델 (VLMs) 은 다양한 분야에서 적용되고 있습니다. 그러나 VLM 의 시각 토큰 시퀀스는 너무 길어, 이는 견딜 수 없는 추론 지연과 GPU 메모리 사용량을 초래할 수 있습니다. 기존 방법은 VLM 의 키-값 (KV) 캐시에 토큰粒度에 기반한 혼합 정밀도 양자화를 제안하며, 이는 탐색 과정에서 시간이 많이 걸리고 계산 시 하드웨어 비효율적입니다. 이 논문은 윈도우 레벨 양자화 검색과 윈도우 레벨 KV 캐시 계산을 포함하는 WindowQuant 라는 새로운 방법을 소개합니다. Window 레벨 양자화 검색은 시각 토큰 윈도우와 텍스트 프롬프트 간의 유사도 점수에 기반하여 KV 캐시 윈도우의 최적 비트 폭 구성을 빠르게 결정하며, 모델 정확도를 유지합니다. 또한, 윈도우 레벨 KV 캐시 계산을 통해 양자화 전에 KV 캐시 윈도우를 재배치하여 추론 계산에서 혼합 정밀도 양자화로 인한 하드웨어 비효율성을 피합니다. 광범위한 실험은 WindowQuant 가 다양한 데이터셋에서 최첨단 VLM 모델과 KV 캐시 양자화 방법을 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0