Delta Forcing: 상호작용형 자기회귀 비디오 생성을 위한 신뢰 영역 스티어링 (Trust Region Steering)

상호작용형 실시간 자기회귀 (Autoregressive) 비디오 생성은 시각적 콘텐츠가 동적으로 진화하는 이벤트 조건에 적응해야 하는 콘텐츠 제작 및 월드 모델링 (World Modeling)과 같은 응용 분야에서 필수적입니다. 근본적인 과제는 반응성 (Reactivity)과 안정성 (Stability) 사이의 균형을 맞추는 데 있습니다. 모델은 새로운 이벤트에 즉각적으로 반응하는 동시에, 긴 시간 범위 (Long horizons) 동안 시간적 일관성 (Temporal coherence)을 유지해야 합니다. 기존 방식들은 양방향 (Bidirectional) 모델을 자기회귀 생성기로 증류 (Distill)하고, 스트리밍 롱 튜닝 (Streaming long tuning)을 통해 이를 추가로 적응시키지만, 조건이 변경된 후 지속적인 드리프트 (Drift) 현상을 보이는 경우가 많습니다. 우리는 그 원인을 조건부 편향 (Conditional bias)으로 식별하였으며, 이는 교사 (Teacher) 모델이 조건에는 부합하지만 궤적 (Trajectory)은 고려하지 않은 가이드를 제공하여, 생성이 국소적으로는 유효하지만 전역적으로는 일관되지 않은 모드 (Modes)로 편향되게 만들기 때문입니다. 신뢰 영역 정책 최적화 (Trust Region Policy Optimization)에서 영감을 받아, 우리는 신뢰할 수 없는 교사 감독을 적응형 신뢰 영역 (Adaptive trust region) 내로 제한하는 단순하면서도 효과적인 프레임워크인 Delta Forcing을 제안합니다. 구체적으로, Delta Forcing은 교사와 생성기 궤적 사이의 잠재적 델타 (Latent delta)로부터 전이 일관성 (Transition consistency)을 추정하며, 이를 사용하여 교사 감독과 단조 연속성 목적 함수 (Monotonic continuity objective) 사이의 균형을 맞춥니다. 이는 새로운 이벤트에 대한 반응성을 유지하면서도, 신뢰할 수 없는 교사에 의해 유도되는 변화를 억제합니다. 광범위한 실험을 통해 Delta Forcing이 이벤트 반응성을 유지하면서도 일관성을 크게 향상시킨다는 것을 입증하였습니다.

Insights

Delta Forcing: 상호작용형 자기회귀 비디오 생성을 위한 신뢰 영역 스티어링 (Trust Region Steering)

요약

핵심 포인트

댓글

LG에너지솔루션이 열 분기 만에 매출 7조를 넘기며 흑자로 돌아섰다. 근데 이 흑자, 배터리가 벌어준 게 아니다.

Micron, Samsung, SK Hynix가 메모리 주식을 약세장으로 끌어들였다

Google, 독일 핵융합 기업의 4억 6,800만 달러 규모 투자 라운드에 참여

1인 개발자로서 AI 회계 SaaS를 구축한 방법 (그리고 다르게 했을 점)

LG에너지솔루션이 열 분기 만에 매출 7조를 넘기며 흑자로 돌아섰다. 근데 이 흑자, 배터리가 벌어준 게 아니다.

Micron, Samsung, SK Hynix가 메모리 주식을 약세장으로 끌어들였다

Google, 독일 핵융합 기업의 4억 6,800만 달러 규모 투자 라운드에 참여

1인 개발자로서 AI 회계 SaaS를 구축한 방법 (그리고 다르게 했을 점)