본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 15. 03:46

메모리 사용량을 90% 줄인 기술로 무한 비디오 생성이 가능해지다

요약

VideoMLA와 Echo-Infinity는 공유 저랭크 캐시 및 진화하는 메모리 기술을 활용하여 자기회귀적 비디오 확산 모델의 메모리 사용량을 획기적으로 줄였습니다. 이로써 기존에는 어려웠던 장시간(일 단위) 무한 비디오 생성이 가능해졌으며, 단일 GPU에서도 높은 처리량과 낮은 지연 시간으로 실용적인 결과물을 얻을 수 있게 되었습니다.

핵심 포인트

  • 저랭크 캐시를 활용하여 메모리 사용량을 90% 이상 절감했습니다.
  • 단일 H100에서 일 단위(24시간)의 무한 비디오 생성이 가능함을 입증했습니다.
  • 장시간 생성 시 GPU 메모리 과다 할당 관행을 바꿀 수 있습니다.
  • 높은 처리량과 낮은 지연 시간으로 실용적인 프로덕션 파이프라인 구축이 가능합니다.

공유 저랭크 캐시(low-rank cache)를 활용하여 자기회귀적(autoregressive) 비디오 확산 모델의 메모리 사용량(memory footprint)을 10분의 9 이상 절감하면서도 임의로 긴 길이의 결과물(rollouts) 생성이 가능해졌습니다.

이러한 기여가 있기 전에는 스트리밍 비디오 확산 모델이 시간적 창(temporal window)에 따라 선형적으로 증가하는 헤드별 키-값 캐시(per-head key-value cache)에 의존했기 때문에, 연구자들은 비디오 길이를 제한하거나 엄청나게 큰 GPU를 갖추도록 강요받았습니다.

VideoMLA는 토큰당 KV 캐시 메모리를 92.7% 줄이면서도 표준 청크 기반 인과적 생성(chunk-causal generation)과의 호환성을 유지합니다. 이 논문은 이러한 압축 방식이 시각적 충실도(visual fidelity)를 저해하지 않음을 보여줍니다. VBench에서 해당 방법은 짧은 범위의 기준 모델(short-horizon baselines)에 필적할 뿐만 아니라 가장 긴 범위(long-horizon)에서도 최고 점수를 기록했습니다. 또한, 표 3에서는 청크별 자기회귀 모델 중 가장 높은 처리량(throughput)과 낮은 지연 시간(latency)을 보고했으며, 이는 단일 B200에서 1.23배의 속도 향상으로 이어집니다 [[1]].

Echo-Infinity는 최고 수준의 성능을 달성했으며, 알려진 한도 내에서 최초로 24시간(130만 프레임 이상)에 달하는 실시간 결과물 생성(real-time rollouts)이 가능함을 입증하여, 무한 비디오 생성을 위한 실용적인 경로를 제시합니다. 실제 시스템은 단일 NVIDIA H100에서 18.5 FPS로 작동하며, 메모리 사용량이 없는 기준 모델과 비교했을 때 오직 10.6%의 처리량 오버헤드만을 발생시켜, 상수 비용(constant-cost)의 진화하는 메모리가 자원 사용량을 폭발시키지 않으면서 일 단위 규모의 생성을 유지할 수 있음을 증명했습니다 [[2]].

이러한 결과들은 몇 가지 질문을 남깁니다. VideoMLA는 잠재 차원(latent dimension)을 수동으로 선택해야 하며, 병목 랭크(bottleneck rank)가 평가된 데이터셋에는 충분해 보이지만, 이 접근 방식이 더 높은 해상도나 다중 모드 스트림에 어떻게 확장되는지는 불분명합니다. Echo-Infinity의 학습 가능한 메모리(learnable memory)는 백만 프레임까지 효과적이지만, 매우 긴 범위의 서사적 일관성(long-range narrative coherence)을 요구하는 콘텐츠로 충분히 테스트되지 않았으며, 통합된 RoPE 레시피(unified RoPE recipe) 역시 보지 못한 모션 역학(unseen motion dynamics)에서는 외삽 한계에 부딪힐 수 있습니다.

만약 결합된 시스템이 보고된 수치에 부합한다면, 개발자들은 장시간 비디오 생성을 위해 GPU 메모리를 과도하게 할당하는 관행을 포기할 수 있습니다. 이전에 몇 초로 제한되었던 벤치마크는 VideoMLA 및 Echo-Infinity 리포지토리에 포함된 분 단위(minute-scale) 설정으로 재실행되어야 하며, 프로덕션 파이프라인은 하드웨어 스택을 재설계하지 않고도 단일 H100에서 시간 또는 일 단위 출력을 목표로 할 수 있습니다.

참고 자료

  1. VideoMLA: 분 단위 자가회귀 비디오 확산을 위한 저랭크 잠재 KV 캐시
  2. Echo-Infinity: 실시간 무한 비디오 생성을 위한 진화하는 메모리 학습

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0