HL-OutPaint: 고해상도 장기 비디오를 위한 Coarse-to-Fine 비디오 아웃페인팅 (Video Outpainting)
요약
HL-OutPaint는 긴 비디오 시퀀스를 위해 고해상도 공간적 외삽을 지원하는 새로운 비디오 아웃페인팅 프레임워크입니다. Coarse-to-fine 전략을 사용하여 전역적인 구조와 움직임을 먼저 포착한 후, 이를 바탕으로 세밀하고 일관된 고해상도 콘텐츠를 생성합니다.
핵심 포인트
- Coarse-to-fine 2단계 파이프라인을 통해 전역 구조 모델링과 미세 합성을 분리하여 안정성을 높임
- Global Coarse Guidance(GCG)를 구축하여 장기적인 구조적 일관성과 단기적인 시간적 역학을 동시에 확보
- Global-local frame swapping 메커니즘을 도입하여 희소한 키프레임과 지역적 시간 창 사이의 정보 교환 최적화
- 기존 방식의 한계인 시공간적 일관성 부족 문제를 해결하고 대규모 공간 확장 및 긴 시퀀스 생성 가능
비디오 아웃페인팅 (Video outpainting)은 비디오의 원래 공간적 범위를 넘어 그럴듯한 시각적 콘텐츠를 생성하며, 비디오를 다양한 디스플레이 형식에 맞게 조정하는 데 핵심적인 역할을 합니다. 이러한 사용 사례를 지원하기 위해서는 긴 시퀀스 (sequences)에 대해 대규모의 공간적 외삽 (spatial extrapolation)을 가능하게 해야 합니다. 그러나 기존의 대부분의 방법들은 이러한 과제 중 하나만을 해결하거나, 전역적인 시공간적 일관성 (spatio-temporal consistency)을 보장하기 위한 명시적인 메커니즘이 부족하여 눈에 띄는 한계를 보입니다. 본 논문에서는 긴 시퀀스를 위한 고해상도 비디오 아웃페인팅 프레임워크인 HL-OutPaint를 제안합니다. 우리의 접근 방식은 2단계 파이프라인을 갖춘 coarse-to-fine (거친 단계에서 정밀한 단계로) 전략을 따릅니다. 먼저 우리는 비디오 전반의 전역적 구조 (global structure)와 지배적인 움직임 (dominant motion)을 포착하는 저해상도 표현인 전역 거친 가이드 (Global Coarse Guidance, GCG)를 구축합니다. 단순한 다운샘플링 (downsampling)과 달리, GCG는 희소한 전역 키프레임 (global keyframes)을 지역적 시간 창 (local temporal windows)과 결합하고 샘플링 중에 정보를 교환하는 새로운 전역-지역 프레임 스와핑 (global-local frame swapping) 메커니즘을 통해 구축됩니다. 이를 통해 GCG는 장기적인 구조적 일관성과 단기적인 시간적 역학 (temporal dynamics)을 통합된 표현 내에 인코딩할 수 있습니다. 이 표현의 가이드를 받아, HL-OutPaint는 공간적으로 상세하고 시간적으로 일관된 콘텐츠를 생성하기 위해 고해상도 아웃페인팅을 수행합니다. 전역 구조 모델링을 미세한 합성 (fine-grained synthesis)으로부터 분리함으로써, 우리의 프레임워크는 대규모 공간 확장 및 긴 비디오 시퀀스에 대해 안정적이고 일관된 생성을 달성합니다. 광범위한 실험을 통해 HL-OutPaint가 넓은 공간적 외삽과 긴 비디오 시퀀스를 포함하는 까다로운 시나리오에서 기존 방법들보다 뛰어난 성능을 보임을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기