HL-OutPaint: 고해상도 장기 비디오를 위한 Coarse-to-Fine 비디오 아웃페인팅 (Video Outpainting)
요약
HL-OutPaint는 고해상도 장기 비디오 아웃페인팅을 위한 새로운 프레임워크입니다. 이 프레임워크는 2단계의 coarse-to-fine 전략을 사용하여, 먼저 전역적 구조와 움직임을 포착하는 Global Coarse Guidance (GCG)를 구축합니다. 이후 GCG가 제공하는 안내를 받아 공간적으로 상세하고 시간적으로 일관된 고해상도 아웃페인팅을 수행함으로써, 긴 비디오 시퀀스에 대한 안정적인 대규모 공간 외삽을 가능하게 합니다.
핵심 포인트
- HL-OutPaint는 장기 비디오 아웃페인팅을 위한 Coarse-to-Fine 접근 방식을 채택합니다.
- Global Coarse Guidance (GCG)를 통해 전역적 구조와 지배적인 움직임을 포착하며, 이는 단순 다운샘플링 이상의 메커니즘입니다.
- GCG는 global-local frame swapping이라는 새로운 메커니즘을 사용하여 장기적 구조와 단기적 시간 역학을 통합합니다.
- 전역 구조 모델링과 세밀한 합성을 분리하여 대규모 공간 확장 및 긴 비디오 시퀀스에서 일관된 생성을 달성합니다.
비디오 아웃페인팅 (Video outpainting)은 비디오의 원래 공간적 범위를 넘어 그럴듯한 시각적 콘텐츠를 생성하며, 비디오를 다양한 디스플레이 형식에 맞게 조정하는 데 핵심적인 역할을 합니다. 이러한 사용 사례를 지원하기 위해서는 긴 시퀀스(sequences)에 대해 대규모 공간 외삽 (spatial extrapolation)을 가능하게 해야 합니다. 그러나 기존의 대부분의 방법은 이러한 과제 중 하나만을 해결하거나, 전역적 시공간 일관성 (global spatio-temporal consistency)을 보장하기 위한 명시적인 메커니즘이 부족하여 눈에 띄는 한계를 보입니다. 본 논문에서는 긴 시퀀스를 위한 고해상도 비디오 아웃페인팅 프레임워크인 HL-OutPaint를 제안합니다. 우리의 접근 방식은 2단계 파이프라인을 갖춘 coarse-to-fine (거친 단계에서 세밀한 단계로) 전략을 따릅니다. 먼저 우리는 비디오 전체에 걸친 전역적 구조와 지배적인 움직임을 포착하는 저해상도 표현인 전역 거친 가이드 (Global Coarse Guidance, GCG)를 구축합니다. 단순한 다운샘플링 (downsampling)과 달리, GCG는 희소한 전역 키프레임 (global keyframes)을 지역적 시간 창 (local temporal windows)과 결합하고 샘플링 중에 정보를 교환하는 새로운 전역-지역 프레임 스와핑 (global-local frame swapping) 메커니즘을 통해 구축됩니다. 이를 통해 GCG는 장기적인 구조적 일관성과 단기적인 시간적 역학 (temporal dynamics)을 통합된 표현 내에 인코딩할 수 있습니다. 이 표현의 안내를 받아, HL-OutPaint는 공간적으로 상세하고 시간적으로 일관된 콘텐츠를 생성하기 위해 고해상도 아웃페인팅을 수행합니다. 전역 구조 모델링을 세밀한 합성 (fine-grained synthesis)으로부터 분리함으로써, 우리의 프레임워크는 대규모 공간 확장 및 긴 비디오 시퀀스에 대해 안정적이고 일관된 생성을 달성합니다. 광범위한 실험을 통해 HL-OutPaint가 넓은 공간 외삽 및 긴 비디오 시퀀스를 포함하는 까다로운 시나리오에서 기존 방법보다 뛰어난 성능을 보임을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기