One-Forcing: 안정적인 1단계 자기회귀 비디오 생성을 향하여
요약
One-Forcing은 1단계 자기회귀 비디오 생성을 위해 DMD 목적 함수에 보조 GAN 손실을 추가한 새로운 연구입니다. 기존 방식의 지연 시간과 품질 저하 문제를 해결하여, 낮은 학습 비용으로도 최첨단 수준의 고품질 비디오 생성을 가능하게 합니다.
핵심 포인트
- DMD에 보조 GAN 손실을 결합하여 1단계 비디오 생성 품질 향상
- VBench 벤치마크에서 1단계 인과적 비디오 생성 SOTA 달성
- 기존 방식 대비 1/3의 비용으로 안정적인 프레임 단위 생성 입증
- 샘플링 단계 축소 시 발생하는 품질 저하 및 흐릿함 문제 해결
최근의 발전은 자기회귀 (Autoregressive) 체제에서 실시간 상호작용형 비디오 생성을 실질적으로 개선해 왔습니다. 그러나 기존의 많은 수 단계 (few-step) 자기회귀 비디오 생성 방법들은 대개 그에 상응하는 다단계 (many-step) 교사 모델로부터 증류 (Distilled)되어 4단계 샘플링 설정을 기본값으로 사용합니다. 이는 배포 과정에서 여전히 상당한 지연 시간 (Latency)을 발생시키며, 특히 1단계 (one-step) 설정과 같이 샘플링 단계 수를 더 줄일 경우 심각한 품질 저하를 겪게 됩니다. 궤적 스타일의 일관성 증류 (Trajectory-style consistency distillation) 방법들은 종종 역동성이 약한 비디오를 생성하는 반면, Self-Forcing과 같은 DMD 기반 접근 방식은 프레임이 흐릿해지는 경향이 있습니다. 이러한 과제를 해결하기 위해, 우리는 고품질의 효율적인 1단계 비디오 생성을 위해 DMD 목적 함수에 보조 GAN 손실 (Auxiliary GAN loss)을 추가한 단순하면서도 효과적인 접근 방식인 One-Forcing을 제안합니다. VBench에서의 실험 결과, One-Forcing은 총점 83.76을 기록하며 1단계 인과적 (Causal) 비디오 생성 방법들 중 최첨단 (State-of-the-art) 성능을 확립하였고, 강력한 다단계 접근 방식들과도 경쟁할 만한 수준을 유지함을 보여주었습니다. 나아가 우리는 이전 방법들이 성공적으로 달성하지 못했던 설정인, 청크 단위 (Chunkwise) 모델 학습 비용의 단 3분의 1만으로도 1단계 프레임 단위 (Framewise) 자기회귀 생성을 안정적으로 달성할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기