본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:27

Sound Sparks Motion: 비디오 편집을 위한 오디오 및 텍스트 튜닝

요약

Sound Sparks Motion은 대규모 생성 비디오 모델이 어려워하는 국소적 동작 및 상태 전이 편집을 위해 제안된 학습이 필요 없는(training-free) 프레임워크입니다. 모델 가중치를 수정하는 대신 오디오 잠재 변수와 텍스트 조건화 내의 잔차 섭동만을 튜닝하여 정교한 모션 편집을 가능하게 합니다. 시각-언어 모델을 활용한 피드백을 통해 텍스트와 모션 간의 시간적 정렬을 가이드하며, 학습된 제어 신호는 다른 비디오로의 전이도 가능합니다.

핵심 포인트

  • 모델 가중치 수정 없이 오디오 잠재 변수와 텍스트 잔차 섭동만을 튜닝하는 경량화된 방식
  • 시각-언어 모델(VLM)을 활용하여 텍스트와 모션 사이의 시간적 정렬을 가이드하는 의미론적 목적 함수 생성
  • 학습된 잠재 제어 신호가 비디오 간에 전이 가능하여 재사용 가능한 모션 편집 방향을 포착함
  • 테스트 시점 튜닝(test-time tuning)을 통해 모델 내부에 내장된 잠재적 모션 제어 능력을 활용

모션 중심 (Motion-centric) 비디오 편집은 대규모 생성 비디오 모델 (large generative video models)에게 여전히 어려운 과제로 남아 있습니다. 이러한 모델들은 외형 변화 (appearance changes)에는 잘 반응하지만, 기존 클립 내에서 특정적이고 국소적인 동작 (localized actions)이나 상태 전이 (state transitions)를 생성하는 데는 어려움을 겪는 경우가 많습니다. 우리는 테스트 시점에 모델의 내부 멀티모달 조건화 신호 (multimodal conditioning signals)를 튜닝함으로써 오디오-비주얼 비디오 생성 모델에서 모션 편집을 가능하게 하는 학습이 필요 없는 (training-free) 프레임워크인 Sound Sparks Motion을 소개합니다. 모델의 가중치 (weights)를 수정하는 대신, 우리의 방법은 오직 두 가지의 경량 변수만을 튜닝합니다: 소스 비디오에서 유도된 오디오 잠재 변수 (audio latent)와 텍스트 조건화 (text-conditioning) 내의 잔차 섭동 (residual perturbation)입니다. 우리는 이러한 조합이 프롬프트 전용 제어 (prompt-only control) 하에서 기반 모델이 구현하기 어려워했던 모션 편집을 촉진할 수 있음을 발견했습니다. 텍스트와 모션 사이의 시간적 정렬 (temporal alignment)을 평가할 직접적인 방법이 없기 때문에, 우리는 의도한 모션이 생성된 비디오에 나타나는지 여부를 나타내는 피드백을 제공하는 시각-언어 모델 (vision-language model)을 사용하여 튜닝 과정을 가이드합니다. 이 단순한 감독 (supervision)은 모션 편집을 위한 효과적인 의미론적 목적 함수 (semantic objective)를 생성하며, 정규화 (regularization) 및 지각-시간적 제약 (perceptual-temporal constraints)은 콘텐츠와 시각적 품질을 보존하는 데 도움을 줍니다. 개별 비디오별 튜닝을 넘어, 우리는 학습된 잠재 제어 (latent controls)가 비디오 간에 전이 가능하다는 것을 보여주며, 이는 이들이 단일 예시에 과적합 (overfitting)되는 것이 아니라 재사용 가능한 모션 편집 방향을 포착하고 있음을 시사합니다. 우리의 결과는 특히 오디오 경로를 통한 멀티모달 조건화 튜닝이 모션 인지 비디오 편집 (motion-aware video editing)을 위한 유망한 방향임을 강조하며, 테스트 시점 튜닝 (test-time tuning)이 모델의 멀티모달 조건화에 내장된 잠재적 모션 제어를 드러내는 데 도움이 되는 경량 프로빙 메커니즘 (lightweight probing mechanism) 역할을 할 수 있음을 시사합니다. 코드와 데이터는 프로젝트 페이지를 통해 확인할 수 있습니다: https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0