VideoMLA: 분 단위 자가회귀 비디오 확산을 위한 저차원 잠재 KV 캐시
요약
VideoMLA는 비디오 확산 모델의 KV 캐시 메모리를 92.7% 감소시키는 저차원 잠재 어텐션 기술을 제안합니다. 기존 언어 모델과 달리 비디오 확산 모델의 특성에 맞춘 MLA의 작동 원리를 분석하고, 장기 비디오 생성 성능과 처리량을 크게 개선했습니다.
핵심 포인트
- 저차원 콘텐츠 잠재 변수를 통해 KV 메모리 92.7% 절감
- 장기 지평(Long-horizon) 비디오 생성에서 최고 성능 달성
- NVIDIA B200 환경에서 처리량 1.23배 향상
- 비디오 확산 모델에서의 MLA 유효 랭크 결정 메커니즘 규명
장기 실행(Long-rollout) 인과적 비디오 확산(Causal video diffusion)은 고정된 크기의 슬라이딩 윈도우(Sliding-window) KV 캐시 방식으로 수렴해 왔으며, 최근의 발전은 윈도우를 차지하는 토큰을 변경하거나 위치를 인코딩하는 방식을 바꾸는 등 이 레이아웃 내에서 혁신을 이루어 왔습니다. 스트리밍 메모리와 지연 시간(Latency)의 주요 원인인 헤드당(Per-head) KV 레이아웃 자체는 대부분 변경되지 않은 채로 남아 있었습니다. 본 논문에서 우리는 비디오 확산에서의 다중 헤드 잠재 어텐션 (Multi-Head Latent Attention, MLA)에 대한 첫 번째 연구를 제시합니다. VideoMLA는 헤드당 키(Key)와 값(Value)을 공유된 저차원 콘텐츠 잠재 변수(Low-rank content latent)와 공유된 분리된 3D-RoPE 위치 키(Decoupled 3D-RoPE positional key)로 대체하여, 캐싱된 모든 레이어에서 토큰당 KV 메모리를 92.7% 감소시킵니다. 우리는 언어 모델에서 MLA를 정당화하기 위해 자주 사용되는 스펙트럼 가정(Spectral assumption)이 성립하지 않음에도 불구하고, 왜 MLA가 비디오 확산에서 성공하는지 추가로 조사합니다. 사전 학습된 비디오 어텐션은 저차원(Low-rank)이 아니며, 99% 에너지 유효 랭크(99%-energy effective rank)가 어떠한 실질적인 잠재 차원보다 훨씬 높습니다. VideoMLA는 직접적인 스펙트럼 근사(Spectral approximation)를 사용할 경우 큰 재구성 오차(Reconstruction error)가 발생할 것으로 예측되는 압축률에서도 품질을 유지합니다. 우리는 사전 학습된 스펙트럼이 아니라 MLA 병목(Bottleneck)이 유효 랭크(Effective rank)를 결정한다는 것을 보여줍니다. 스펙트럼 초기화와 무작위 초기화 모두 초기화 시점부터 거의 전체 랭크 예산(Rank budget)을 점유하며, 학습 과정은 이 예산 내에서 적응하면서 이를 보존합니다. VBench에서 VideoMLA는 단기 지평(Short-horizon) 스트리밍 비디오 확산 베이스라인과 대등한 성능을 보였으며, 평가된 방법들 중 장기 지평(Long horizons)에서 최고의 종합 점수를 달성하였고, 단일 B200에서 처리량(Throughput)을 1.23배 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기