WindowQuant: VLM 추론 최적화를 위한 윈도우 레벨 유사성에 기반한 혼합 정밀도 KV 캐시 양자화

최근 비디오 언어 모델 (VLMs) 은 다양한 분야에서 적용되고 있습니다. 그러나 VLM 의 시각 토큰 시퀀스는 너무 길어, 이는 견딜 수 없는 추론 지연과 GPU 메모리 사용량을 초래할 수 있습니다. 기존 방법은 VLM 의 키-값 (KV) 캐시에 토큰粒度에 기반한 혼합 정밀도 양자화를 제안하며, 이는 탐색 과정에서 시간이 많이 걸리고 계산 시 하드웨어 비효율적입니다. 이 논문은 윈도우 레벨 양자화 검색과 윈도우 레벨 KV 캐시 계산을 포함하는 WindowQuant 라는 새로운 방법을 소개합니다. Window 레벨 양자화 검색은 시각 토큰 윈도우와 텍스트 프롬프트 간의 유사도 점수에 기반하여 KV 캐시 윈도우의 최적 비트 폭 구성을 빠르게 결정하며, 모델 정확도를 유지합니다. 또한, 윈도우 레벨 KV 캐시 계산을 통해 양자화 전에 KV 캐시 윈도우를 재배치하여 추론 계산에서 혼합 정밀도 양자화로 인한 하드웨어 비효율성을 피합니다. 광범위한 실험은 WindowQuant 가 다양한 데이터셋에서 최첨단 VLM 모델과 KV 캐시 양자화 방법을 능가함을 보여줍니다.

Insights

WindowQuant: VLM 추론 최적화를 위한 윈도우 레벨 유사성에 기반한 혼합 정밀도 KV 캐시 양자화

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다