EntityBench: 엔티티 일관성을 갖춘 장거리 멀티샷 비디오 생성을 향하여
요약
본 논문은 장거리 멀티샷 비디오 생성의 핵심 과제인 엔티티 일관성 문제를 해결하기 위해 EntityBench라는 새로운 벤치마크를 제안합니다. 이 벤치마크는 실제 서사 미디어에서 유도된 140개 에피소드(2,491개 샷)로 구성되어 있으며, 다양한 재출현 간격과 명시적인 엔티티 스케줄을 제공합니다. 또한, 샷 내부 품질, 프롬프트 준수 정렬, 샷 간 일관성을 분리 평가하는 세 가지 기둥의 평가 스위트와 충실도 게이트를 포함하여 평가의 정확도를 높였습니다. 제안된 메모리 증강 생성 시스템인 EntityMem은 엔티티별 시각적 참조를 메모리 뱅크에 저장함으로써, 재출현 거리가 멀어지더라도 높은 캐릭터 일관성을 유지하는 성능을 입증했습니다.
핵심 포인트
- EntityBench는 실제 서사 미디어 기반의 140개 에피소드(2,491개 샷)로 구성된 새로운 비디오 생성 벤치마크입니다.
- 이 벤치마크는 캐릭터, 장소, 객체 등 다양한 엔티티를 추적하며 최대 48샷에 달하는 재출현 간격까지 테스트할 수 있습니다.
- 평가 시스템은 샷 내부 품질, 프롬프트 준수 정렬, 샷 간 일관성 세 가지 요소를 분리하여 평가하고 충실도 게이트를 적용합니다.
- 제안된 EntityMem 시스템은 엔티티별 시각적 참조를 메모리 뱅크에 저장하는 방식으로, 장거리 비디오 생성에서 높은 캐릭터 일관성을 달성했습니다.
멀티샷 비디오 생성 (Multi-shot video generation)은 단일샷 생성을 일관된 시각적 서사로 확장하지만, 긴 시퀀스 전반에 걸쳐 캐릭터, 객체 및 장소의 일관성을 유지하는 것은 여전히 과제로 남아 있습니다. 기존의 평가 방식은 일반적으로 엔티티 커버리지가 제한적이고 단순한 일관성 지표를 가진 독립적으로 생성된 프롬프트 세트를 사용하므로, 표준화된 비교가 어렵습니다. 우리는 실제 서사 미디어에서 유도된 140개의 에피소드(2,491개 샷)로 구성된 벤치마크인 EntityBench를 소개합니다. 이는 쉬움 / 중간 / 어려움 단계에 따라 최대 50개의 샷, 13개의 샷 간 캐릭터, 8개의 샷 간 장소, 22개의 샷 간 객체를 동시에 추적하며, 최대 48개 샷에 달하는 재출현 간격 (recurrence gaps)을 포함하는 명시적인 샷별 엔티티 스케줄을 제공합니다. 이와 함께 샷 내부 품질 (intra-shot quality), 프롬프트 준수 정렬 (prompt-following alignment), 그리고 샷 간 일관성 (cross-shot consistency)을 분리하여 평가하는 세 가지 기둥의 평가 스위트를 결합하였으며, 정확한 엔티티 출현만을 샷 간 점수에 반영하는 충실도 게이트 (fidelity gate)를 포함합니다. 베이스라인으로서, 우리는 생성이 시작되기 전 검증된 엔티티별 시각적 참조를 영구적인 메모리 뱅크 (memory bank)에 저장하는 메모리 증강 생성 시스템인 EntityMem을 제안합니다. 실험 결과, 기존 방식에서는 재출현 거리 (recurrence distance)가 멀어짐에 따라 샷 간 엔티티 일관성이 급격히 저하되는 반면, 명시적인 엔티티별 메모리는 평가된 방식들 중 가장 높은 캐릭터 충실도 (Cohen's d = +2.33)와 존재감을 보여주었습니다. 코드와 데이터는 https://github.com/Catherine-R-He/EntityBench/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기