arXiv논문2026. 05. 27. 11:29

양자화된 키가 어텐션을 탈취한다: 비디오 확산 모델의 KV-Cache 압축을 위한 편향 수정

요약

비디오 확산 모델의 KV 캐시 양자화 시 발생하는 'Jensen 편향' 문제를 분석하고 이를 해결하는 수정 방식을 제안합니다. 2차 테일러 근사를 통해 추가 오버헤드 없이 양자화 노이즈를 제거하여 메모리 사용량을 50% 절감하면서도 고품질 비디오 생성을 가능하게 합니다.

핵심 포인트

양자화된 키가 어텐션 질량을 탈취하는 Jensen 편향 발견
2차 테일러 근사를 이용한 실시간 어텐션 점수 수정 방식 제안
추가 메모리나 계산 오버헤드 없이 양자화 품질 개선
INT2 양자화로도 BF16 수준의 비디오 품질 회복 가능

청크 단위 자기회귀(Chunk-wise autoregressive) 비디오 확산 모델(Video diffusion models)은 중복 계산을 피하기 위해 이전에 생성된 청크들의 KV 캐시(KV cache)에 의존하지만, 비디오가 길어짐에 따라 이 캐시는 빠르게 메모리 병목 현상이 됩니다. KV 캐시를 낮은 비트 너비(low bitwidths)로 양자화(Quantize)하는 방법들은 메모리 압박을 줄여주지만 비디오 품질을 저하시킵니다. 우리는 이러한 품질 저하의 주요 원인이 어텐션 가중치(attention weights)의 체계적인 편향(bias)임을 보여줍니다. Softmax 어텐션 내 지수 함수(exponential)의 볼록성(convexity)으로 인해, 양자화 노이즈(quantization noise)가 캐시된 키(keys)의 기여도를 부풀리는데, 우리는 이 현상을 Jensen 편향(Jensen bias)이라고 부릅니다. 이 효과는 양자화된 키가 양자화되지 않은 현재 청크로부터 어텐션 질량(attention mass)을 탈취하게 만듭니다. 우리는 캐시된 키의 양자화 단계 크기(quantization step sizes)와 쿼리 노름(query norm)으로부터 실시간으로 계산되어, 기대값 상에서 이 편향을 제거하는 어텐션 점수별 수정(per-attention-score correction) 방식을 도출합니다. 2차 테일러 근사(second-order Taylor approximation)를 사용하면 추가적인 계산 오버헤드는 무시할 수 있는 수준이며, 캐시와 함께 추가적인 메모리도 필요하지 않습니다. MAGI-1, SkyReels-V2, HY-WorldPlay에서 INT2 양자화로 평가했을 때, 우리의 수정 방식은 공격적인 양자화로 인해 손실된 품질의 대부분을 회복하여 BF16에 근접한 비디오 품질에 도달하며, 메모리를 50% 적게 사용하면서도 INT4 양자화보다 뛰어난 성능을 보일 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

양자화된 키가 어텐션을 탈취한다: 비디오 확산 모델의 KV-Cache 압축을 위한 편향 수정

요약

핵심 포인트

댓글