arXiv논문2026. 05. 25. 16:47

EM-Vid: 효율적이고 일관된 멀티샷 비디오 생성을 위한 훈련 불필요 엔티티 중심 메모리

요약

멀티샷 비디오 생성 시 엔티티의 일관성을 유지하기 위해 엔티티 중심 메모리(EM-Vid)를 제안합니다. 전체 프레임을 저장하는 대신 엔티티 인덱스 뱅크를 활용하여 계산 비용을 줄이고 정보 누출을 방지합니다.

핵심 포인트

엔티티 중심 메모리를 통한 피사체 일관성 유지
희소 토큰 조건화로 계산 효율성 및 성능 향상
예산 기반 메모리 업데이트 전략 도입
노이즈 주입 메커니즘을 통한 미세한 외형 제어

멀티샷 비디오 생성 (Multi-shot video generation)은 각 샷의 특정 텍스트 프롬프트 (text prompts)를 충실히 따르는 동시에, 반복되는 엔티티 (entities)의 외형을 샷 전반에 걸쳐 일관되게 유지해야 합니다. 최근의 자기회귀 (autoregressive) 방식들은 이전에 생성된 프레임들을 메모리 (memory)로 재사용합니다. 하지만 전체 프레임 (full-frame) 저장 방식은 지속적인 엔티티 정보와 일시적인 장면 문맥 (scene context)을 뒤섞이게 하여, 무관한 정보의 누출 (information leakage)과 높은 계산 비용을 초래합니다. 우리는 잠재 패치 (latent patches)의 엔티티 인덱스 뱅크 (entity-indexed bank) 형태를 가진 엔티티 중심 메모리 (entity-centric memory)를 제안합니다. 우리는 사전 학습된 모델 (pretrained models)과 호환되는 희소 토큰 조건화 (sparse token conditioning)를 도입하여, 셀프 어텐션 (self-attention)을 엔티티 관련 토큰으로 제한하고 계산 비용을 줄입니다. 이를 지원하기 위해, 우리는 구조화된 멀티샷 스크립트 (multi-shot script) 형식을 도입합니다. 또한, 작고 진화하는 메모리를 유지하기 위해 예산 기반 메모리 업데이트 전략 (budgeted memory update strategy)을 제안합니다. 마지막으로, 우리는 엔티티 표현 (entity representation)에 노이즈 주입 메커니즘 (noise-injection mechanism)을 갖추어 미세한 외형 제어를 가능하게 하고 무관한 정보의 누출을 방지합니다. 우리의 방법은 피사체 일관성 (subject consistency)을 유지하면서 프롬프트 준수 (prompt adherence) 능력과 효율성을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

EM-Vid: 효율적이고 일관된 멀티샷 비디오 생성을 위한 훈련 불필요 엔티티 중심 메모리

요약

핵심 포인트

댓글