본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 09. 06:44

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via

요약

본 논문은 자연어 명령에 따른 비디오 배경 교체(Background Replacement)의 어려움을 다루며, 기존 데이터셋들이 이 복잡한 작업을 충분히 지원하지 못했음을 지적합니다. 이에 연구진은 앞뒤 가이드를 분리하여 생성하는 확장 가능한 파이프라인을 설계하고, 이를 통해 140K 비디오 쌍을 포함하는 새로운 Sparkle 데이터셋과 평가 벤치마크인 Sparkle-Bench를 공개했습니다. 이로써 배경 교체 작업의 품질 저하 문제를 해결하고 기존 모델 대비 월등히 높은 성능을 입증했습니다.

핵심 포인트

  • 배경 교체(Background Replacement)는 시간적 일관성과 정확한 상호작용 유지가 필수적이어서 데이터 생성이 매우 어렵다.
  • 기존 오픈소스 데이터셋들은 배경 가이드의 부족으로 인해 품질이 낮고 비자연적인 결과를 초래한다.
  • 연구진은 앞뒤 가이드를 분리하여 생성하는 확장 가능한 파이프라인을 개발했다.
  • 새로운 Sparkle 데이터셋(140K 비디오 쌍)과 평가 벤치마크인 Sparkle-Bench를 공개하여 해당 분야의 표준을 제시했다.

최근 몇 년간 Senorita-2M 같은 오픈소스 노력들이 비디오 편집을 자연어 명령으로 이끌었습니다. 그러나 현재 공개된 데이터셋들은 주로 지역 편집이나 스타일 전이에 집중되어 있으며, 이는 원래 장면 구조를 보존하고 확장하기 쉽습니다. 반면, 영화 제작 및 광고와 같은 창의적 응용 프로그램의 핵심인 Background Replacement(배경 교체) 작업은 완전히 새로운 시간적으로 일관된 장면을 생성하면서 정확한 앞뒤 배경 상호작용을 유지해야 하므로 대규모 데이터 생성을 훨씬 더 어렵게 만듭니다. 따라서 이 복잡한 작업은 고품질 훈련 데이터 부족으로 인해 여전히 충분히 탐구되지 않았습니다. 이는 Kiwi-Edit와 같은 최첨단 모델의 성능이 낮음을 통해 명확히 드러나며, 이 작업을 포함하는 주요 오픈소스 데이터셋인 OpenVE-3M 은 종종 정적이고 비자연적인 배경을 생성하기 때문입니다. 본 논문에서는 이 품질 저하를 데이터 합성 중 정확한 배경 가이드 부족으로 추적합니다. 따라서 우리는 엄격한 품질 필터링과 함께 앞뒤 가이드를 분리된 방식으로 생성하는 확장 가능한 파이프라인을 설계했습니다. 이 파이프라인을 바탕으로, 5 가지 일반적인 배경 변경 주제에 걸친 약 140K 비디오 쌍을 포함하는 Sparkle 데이터셋과 가장 큰 평가 벤치마크인 Sparkle-Bench 를 소개합니다. 실험 결과, 우리는 OpenVE-Bench 과 Sparkle-Bench 에서 모든 기존 베이스라인보다 훨씬 더 나은 성능을 달성했습니다. 제안된 데이터셋, 벤치마크, 모델은 https://showlab.github.io/Sparkle/ 에서 완전히 오픈소스되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0