본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 12:02

TunerDiT: 다중 이벤트 비디오 생성을 위한 Diffusion Transformer의 훈련 없는 점진적 스티어링 (Progressive

요약

TunerDiT는 추가 훈련 없이 Diffusion Transformer를 활용해 다중 이벤트 비디오를 생성하는 기술입니다. 이벤트 분할 마스킹과 프롬프트 융합을 통해 비디오 일관성과 이벤트 분리 사이의 조절 가능한 성능을 제공합니다.

핵심 포인트

  • 추가 훈련이 필요 없는 점진적 스티어링 방식 제안
  • 이벤트 분할 마스킹을 통한 이벤트 경계 강제
  • 프롬프트 융합을 통한 후기 단계 세부 사항 정교화
  • 자체 큐레이션된 다중 이벤트 벤치마크 Meve 공개
  • 기존 훈련 없는 방식 대비 SOTA 성능 달성

텍스트-비디오 (Text-to-video, T2V) 생성은 여러 이벤트가 포함된 긴 호흡의 비디오를 생성할 때 도전적인 문제에 직면합니다. 확산 과정 (diffusion process)의 본질에서 영감을 얻어, 우리는 비디오 확산 트랜스포머 (Diffusion Transformers, DiTs)를 조사하여, 조건부 텍스트 (conditioning text)가 전역적 레이아웃 (global layout)에서 미세한 세부 사항 (fine-grained details)에 이르기까지 생성에 영향을 미치는 DiT 노이즈 제거 궤적 (denoising trajectory) 내의 고유한 전환점 (turning points)을 발견했습니다. 이러한 발견을 바탕으로, 우리는 다중 이벤트 생성을 위해 추가적인 훈련이 필요 없는 단순하면서도 효과적인 점진적 스티어링 (progressive steering) 방법인 TunerDiT를 제안합니다. TunerDiT는 두 가지 스티어링 핸들 (steering handles)로 구성됩니다: (1) 이벤트 간 전환 대역 (cross-event transition bands)을 허용하면서 이벤트 경계 (event boundaries)를 강제하는 이벤트 분할 마스킹 (Event-Partitioned Masking); (2) 후기 단계의 정교화 (refinement)를 위해 인접한 이벤트의 의미론 (semantics)을 주입하는 이벤트 간 프롬프트 융합 (Cross-Event Prompt Fusion)입니다. 우리는 다중 이벤트 생성을 벤치마킹하기 위해 자체적으로 큐레이션한 프롬프트 제품군인 Meve를 기여합니다. TunerDiT는 다른 훈련 없는 (training-free) 방법들과 비교했을 때 8개의 지표에서 최첨단 (state-of-the-art) 성능을 달성하며, 비디오 일관성 (video consistency)과 이벤트 분리 (event separation) 사이의 조절 가능한 트레이드오프 (trade-off)를 제공합니다. 텍스트 정렬 (text alignment)의 개선은 이벤트 수가 증가함에 따라 함께 증가하며, 이는 이벤트 수 증가에 따른 확장 가능성 (scaling possibility)을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0