본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:31

Delta Forcing: 상호작용형 자기회귀 비디오 생성을 위한 신뢰 영역 스티어링 (Trust Region Steering)

요약

Delta Forcing은 상호작용형 실시간 비디오 생성 시 발생하는 반응성과 안정성 사이의 불균형 문제를 해결하기 위한 새로운 프레임워크입니다. 기존 방식이 조건 변화 시 발생하는 드리프트 현상을 극복하지 못하는 원인을 조건부 편향으로 규명하고, 신뢰 영역 정책 최적화 개념을 도입하여 교사 모델의 가이드를 적응형 신뢰 영역 내로 제한합니다. 이를 통해 새로운 이벤트에 즉각적으로 반응하면서도 긴 시간 범위 동안 시각적 일관성을 유지할 수 있습니다.

핵심 포인트

  • 상호작용형 비디오 생성의 핵심 과제인 반응성(Reactivity)과 안정성(Stability) 사이의 균형 최적화
  • 기존 모델의 드리프트 현상 원인을 교사 모델이 궤적을 고려하지 않는 '조건부 편향'으로 식별
  • 신뢰 영역 정책 최적화(TRPO)에서 영감을 얻은 Delta Forcing 프레임워크 제안
  • 교사 감독과 단조 연속성 목적 함수 간의 균형을 통해 전역적 시간적 일관성 확보

상호작용형 실시간 자기회귀 (Autoregressive) 비디오 생성은 시각적 콘텐츠가 동적으로 진화하는 이벤트 조건에 적응해야 하는 콘텐츠 제작 및 월드 모델링 (World Modeling)과 같은 응용 분야에서 필수적입니다. 근본적인 과제는 반응성 (Reactivity)과 안정성 (Stability) 사이의 균형을 맞추는 데 있습니다. 모델은 새로운 이벤트에 즉각적으로 반응하는 동시에, 긴 시간 범위 (Long horizons) 동안 시간적 일관성 (Temporal coherence)을 유지해야 합니다. 기존 방식들은 양방향 (Bidirectional) 모델을 자기회귀 생성기로 증류 (Distill)하고, 스트리밍 롱 튜닝 (Streaming long tuning)을 통해 이를 추가로 적응시키지만, 조건이 변경된 후 지속적인 드리프트 (Drift) 현상을 보이는 경우가 많습니다. 우리는 그 원인을 조건부 편향 (Conditional bias)으로 식별하였으며, 이는 교사 (Teacher) 모델이 조건에는 부합하지만 궤적 (Trajectory)은 고려하지 않은 가이드를 제공하여, 생성이 국소적으로는 유효하지만 전역적으로는 일관되지 않은 모드 (Modes)로 편향되게 만들기 때문입니다. 신뢰 영역 정책 최적화 (Trust Region Policy Optimization)에서 영감을 받아, 우리는 신뢰할 수 없는 교사 감독을 적응형 신뢰 영역 (Adaptive trust region) 내로 제한하는 단순하면서도 효과적인 프레임워크인 Delta Forcing을 제안합니다. 구체적으로, Delta Forcing은 교사와 생성기 궤적 사이의 잠재적 델타 (Latent delta)로부터 전이 일관성 (Transition consistency)을 추정하며, 이를 사용하여 교사 감독과 단조 연속성 목적 함수 (Monotonic continuity objective) 사이의 균형을 맞춥니다. 이는 새로운 이벤트에 대한 반응성을 유지하면서도, 신뢰할 수 없는 교사에 의해 유도되는 변화를 억제합니다. 광범위한 실험을 통해 Delta Forcing이 이벤트 반응성을 유지하면서도 일관성을 크게 향상시킨다는 것을 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0