arXiv논문2026. 05. 09. 06:44

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via

요약

본 논문은 자연어 명령에 따른 비디오 배경 교체(Background Replacement)의 어려움을 다루며, 기존 데이터셋들이 이 복잡한 작업을 충분히 지원하지 못했음을 지적합니다. 이에 연구진은 앞뒤 가이드를 분리하여 생성하는 확장 가능한 파이프라인을 설계하고, 이를 통해 140K 비디오 쌍을 포함하는 새로운 Sparkle 데이터셋과 평가 벤치마크인 Sparkle-Bench를 공개했습니다. 이로써 배경 교체 작업의 품질 저하 문제를 해결하고 기존 모델 대비 월등히 높은 성능을 입증했습니다.

핵심 포인트

배경 교체(Background Replacement)는 시간적 일관성과 정확한 상호작용 유지가 필수적이어서 데이터 생성이 매우 어렵다.
기존 오픈소스 데이터셋들은 배경 가이드의 부족으로 인해 품질이 낮고 비자연적인 결과를 초래한다.
연구진은 앞뒤 가이드를 분리하여 생성하는 확장 가능한 파이프라인을 개발했다.
새로운 Sparkle 데이터셋(140K 비디오 쌍)과 평가 벤치마크인 Sparkle-Bench를 공개하여 해당 분야의 표준을 제시했다.

최근 몇 년간 Senorita-2M 같은 오픈소스 노력들이 비디오 편집을 자연어 명령으로 이끌었습니다. 그러나 현재 공개된 데이터셋들은 주로 지역 편집이나 스타일 전이에 집중되어 있으며, 이는 원래 장면 구조를 보존하고 확장하기 쉽습니다. 반면, 영화 제작 및 광고와 같은 창의적 응용 프로그램의 핵심인 Background Replacement(배경 교체) 작업은 완전히 새로운 시간적으로 일관된 장면을 생성하면서 정확한 앞뒤 배경 상호작용을 유지해야 하므로 대규모 데이터 생성을 훨씬 더 어렵게 만듭니다. 따라서 이 복잡한 작업은 고품질 훈련 데이터 부족으로 인해 여전히 충분히 탐구되지 않았습니다. 이는 Kiwi-Edit와 같은 최첨단 모델의 성능이 낮음을 통해 명확히 드러나며, 이 작업을 포함하는 주요 오픈소스 데이터셋인 OpenVE-3M 은 종종 정적이고 비자연적인 배경을 생성하기 때문입니다. 본 논문에서는 이 품질 저하를 데이터 합성 중 정확한 배경 가이드 부족으로 추적합니다. 따라서 우리는 엄격한 품질 필터링과 함께 앞뒤 가이드를 분리된 방식으로 생성하는 확장 가능한 파이프라인을 설계했습니다. 이 파이프라인을 바탕으로, 5 가지 일반적인 배경 변경 주제에 걸친 약 140K 비디오 쌍을 포함하는 Sparkle 데이터셋과 가장 큰 평가 벤치마크인 Sparkle-Bench 를 소개합니다. 실험 결과, 우리는 OpenVE-Bench 과 Sparkle-Bench 에서 모든 기존 베이스라인보다 훨씬 더 나은 성능을 달성했습니다. 제안된 데이터셋, 벤치마크, 모델은 https://showlab.github.io/Sparkle/ 에서 완전히 오픈소스되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via

요약

핵심 포인트

댓글