본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

EM-Vid: 효율적이고 일관된 멀티샷 비디오 생성을 위한 훈련 불필요 엔티티 중심 메모리

요약

멀티샷 비디오 생성 시 엔티티의 일관성을 유지하기 위해 엔티티 중심 메모리(EM-Vid)를 제안합니다. 전체 프레임을 저장하는 대신 엔티티 인덱스 뱅크를 활용하여 계산 비용을 줄이고 정보 누출을 방지합니다.

핵심 포인트

  • 엔티티 중심 메모리를 통한 피사체 일관성 유지
  • 희소 토큰 조건화로 계산 효율성 및 성능 향상
  • 예산 기반 메모리 업데이트 전략 도입
  • 노이즈 주입 메커니즘을 통한 미세한 외형 제어

멀티샷 비디오 생성 (Multi-shot video generation)은 각 샷의 특정 텍스트 프롬프트 (text prompts)를 충실히 따르는 동시에, 반복되는 엔티티 (entities)의 외형을 샷 전반에 걸쳐 일관되게 유지해야 합니다. 최근의 자기회귀 (autoregressive) 방식들은 이전에 생성된 프레임들을 메모리 (memory)로 재사용합니다. 하지만 전체 프레임 (full-frame) 저장 방식은 지속적인 엔티티 정보와 일시적인 장면 문맥 (scene context)을 뒤섞이게 하여, 무관한 정보의 누출 (information leakage)과 높은 계산 비용을 초래합니다. 우리는 잠재 패치 (latent patches)의 엔티티 인덱스 뱅크 (entity-indexed bank) 형태를 가진 엔티티 중심 메모리 (entity-centric memory)를 제안합니다. 우리는 사전 학습된 모델 (pretrained models)과 호환되는 희소 토큰 조건화 (sparse token conditioning)를 도입하여, 셀프 어텐션 (self-attention)을 엔티티 관련 토큰으로 제한하고 계산 비용을 줄입니다. 이를 지원하기 위해, 우리는 구조화된 멀티샷 스크립트 (multi-shot script) 형식을 도입합니다. 또한, 작고 진화하는 메모리를 유지하기 위해 예산 기반 메모리 업데이트 전략 (budgeted memory update strategy)을 제안합니다. 마지막으로, 우리는 엔티티 표현 (entity representation)에 노이즈 주입 메커니즘 (noise-injection mechanism)을 갖추어 미세한 외형 제어를 가능하게 하고 무관한 정보의 누출을 방지합니다. 우리의 방법은 피사체 일관성 (subject consistency)을 유지하면서 프롬프트 준수 (prompt adherence) 능력과 효율성을 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0