arXiv논문2026. 06. 04. 13:34

Echo-Infinity: 실시간 무한 비디오 생성을 위한 진화하는 메모리 학습

요약

Echo-Infinity는 학습 가능한 진화하는 메모리를 활용하여 실시간으로 무한한 길이의 비디오를 생성하는 자기회귀 프레임워크입니다. 기존 방식의 정보 손실과 누적 오차 문제를 해결하기 위해 메모리 큐레이션 과정을 학습 가능한 쿼리로 대체하고 통합 상대적 RoPE 레시피를 도입했습니다.

핵심 포인트

학습 가능한 메모리 쿼리를 통한 동적 정보 압축 및 관리
비디오 길이에 관계없이 일정한 계산 비용 유지
통합 상대적 RoPE 레시피로 RoPE 외삽 격차 해소
24시간 이상의 실시간 무한 비디오 생성 성능 입증

우리는 일정한 비용으로 임의 길이의 이력을 동적으로 필터링, 추상화 및 압축하기 위해 학습 가능한 진화하는 메모리 (evolving memory)를 사용하는 실시간 무한 비디오 생성을 향한 자기회귀 (Autoregressive, AR) 프레임워크인 Echo-Infinity를 선보입니다. 기존 방법들은 주로 사전 정의된 KV-캐시 (KV-cache) 스케줄, 고정 비율 휴리스틱 압축, 또는 추론 시점의 RoPE 적응을 통해 메모리를 관리합니다. 이러한 설계는 제한된 캐시 윈도우 (cache window)와 자기회귀 생성 노이즈에 대한 무지로 인해 필연적으로 역사적 정보를 손실하고 누적 오차 (compounding errors)를 증폭시킵니다. 인간의 메모리 공고화 (memory consolidation)에서 영감을 얻은 Echo-Infinity는 수작업으로 제작된 메모리 큐레이션 (memory curation)을 학습 가능한 메모리 쿼리 (Memory Query)로 대체하며, 이는 과거 프레임이 로컬 윈도우에서 제거될 때 어텐션 (attention)과 게이팅 메커니즘 (gating mechanism)에 의해 업데이트됩니다. 이 쿼리들은 비디오 확산 트랜스포머 (Video Diffusion Transformers, DiTs)와 함께 엔드 투 엔드 (end-to-end)로 최적화되어, 비디오 길이에 관계없이 일정한 계산량으로 임의의 압축 비율을 지원하는 진화하는 메모리를 형성합니다. 또한 이들은 일반화 가능한 생성 사전 정보 (generation prior)로 작용하여, 최적화된 초기 상태만 사용될 때조차 품질을 향상시킵니다. 우리는 더 나아가 싱크 프레임 (sink frames)을 id 0부터 시작하도록 고정하고, 훈련 및 추론 전반에 걸쳐 최신 프레임 id가 DiTs의 사전 학습된 최대 시간적 RoPE id까지 성장할 수 있도록 하는 통합 상대적 RoPE 레시피 (Unified Relative RoPE Recipe)를 도입하여, 모델을 유한한 RoPE 제약으로부터 해방시키고 훈련-테스트 RoPE 외삽 (extrapolation) 격차를 해소합니다. 긴 비디오 및 짧은 비디오 생성 모두에서 Echo-Infinity는 최첨단 (state-of-the-art) 성능을 달성하며, 우리가 아는 바로는 최초로 유망한 24시간 (>1.3 M 프레임) 실시간 롤아웃 (rollouts)을 입증하여 무한 비디오 생성을 향한 실질적인 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Echo-Infinity: 실시간 무한 비디오 생성을 위한 진화하는 메모리 학습

요약

핵심 포인트

댓글