arXiv논문2026. 05. 25. 16:47

DrawVideo: 스토리보드 키프레임 스케치를 이용한 긴 영상 생성

요약

DrawVideo는 스케치 가이드와 스토리보드를 활용하여 제어 가능한 긴 영상을 생성하는 새로운 프레임워크를 제안합니다. 샷을 스케치, 외형, 움직임 프롬프트로 분해하여 구조적 제어력과 시각적 일관성을 동시에 확보합니다.

핵심 포인트

스케치, 외형, 움직임 프롬프트를 통한 정밀한 영상 제어
전역적 다중 샷 및 지역적 단일 스케치 계층 구조 전략 사용
최초의 스케치 가이드 기반 긴 영상 생성 데이터셋 SketchLongVideo 공개
높은 구조적 제어 가능성 및 외형 일관성 달성

긴 영상 생성(Long video generation)에는 고충실도 합성(high-fidelity synthesis), 일관된 서사 구조(coherent narrative structure), 그리고 확장된 시간 범위에 대한 사용자 제어 능력이 필요합니다. 기존의 텍스트-비디오(text-to-video) 방식은 종종 단일한 긴 프롬프트(prompt)에 의존하기 때문에 포즈(pose), 구도(composition), 레이아웃(layout), 그리고 움직임(motion)에 대한 제어가 제한적입니다. 우리는 제어 가능한 긴 영상 생성을 위한 스케치 가이드 기반의 스토리보드 주도 프레임워크인 DrawVideo를 제안합니다. DrawVideo는 긴 영상을 각각 흑백 스케치(sketch), 외형 프롬프트(appearance prompt), 그리고 움직임 프롬프트(motion prompt)로 정의되는 독립적으로 제어 가능한 샷(shot)들로 분해합니다. 스케치는 포즈와 레이아웃을 제어하고, 외형 프롬프트는 정체성(identity), 장면(scene), 스타일(style)을 정의하며, 움직임 프롬프트는 시간적 역동성(temporal dynamics)을 안내합니다. DrawVideo는 '전역적 다중 샷, 지역적 단일 스케치(global multi-shot, local single-sketch)' 계층 구조 전략을 따릅니다. 즉, 먼저 구조가 정렬된 참조 키프레임(reference keyframe)을 생성한 다음, 움직임 프롬프트를 동작 상태를 나타내는 파생 키프레임(derivative keyframes)으로 확장하고, 마지막으로 인접한 키프레임 사이의 클립(clips)을 합성하여 각 샷을 구축합니다. 또한 우리는 애니메이션 영상으로부터 샷 탐지(shot detection), 키프레임 추출(keyframe extraction), 시각-언어 인식(vision-language recognition), 프롬프트 분해(prompt decomposition), 그리고 스케치 변환(sketch conversion)을 통해 구축된, 스케치 가이드 기반 텍스트-긴 영상 생성(text-to-long-video generation)을 위한 최초의 데이터셋인 SketchLongVideo를 소개합니다. 실험을 통해 DrawVideo가 강력한 구조적 제어 가능성(structural controllability), 외형 일관성(appearance consistency), 시각적 안정성(visual stability), 그리고 일관된 긴 영상 생성 능력을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DrawVideo: 스토리보드 키프레임 스케치를 이용한 긴 영상 생성

요약

핵심 포인트

댓글