HL-OutPaint: 고해상도 장기 비디오를 위한 Coarse-to-Fine 비디오 아웃페인팅 (Video Outpainting)

비디오 아웃페인팅 (Video outpainting)은 비디오의 원래 공간적 범위를 넘어 그럴듯한 시각적 콘텐츠를 생성하며, 비디오를 다양한 디스플레이 형식에 맞게 조정하는 데 핵심적인 역할을 합니다. 이러한 사용 사례를 지원하기 위해서는 긴 시퀀스 (sequences)에 대해 대규모의 공간적 외삽 (spatial extrapolation)을 가능하게 해야 합니다. 그러나 기존의 대부분의 방법들은 이러한 과제 중 하나만을 해결하거나, 전역적인 시공간적 일관성 (spatio-temporal consistency)을 보장하기 위한 명시적인 메커니즘이 부족하여 눈에 띄는 한계를 보입니다. 본 논문에서는 긴 시퀀스를 위한 고해상도 비디오 아웃페인팅 프레임워크인 HL-OutPaint를 제안합니다. 우리의 접근 방식은 2단계 파이프라인을 갖춘 coarse-to-fine (거친 단계에서 정밀한 단계로) 전략을 따릅니다. 먼저 우리는 비디오 전반의 전역적 구조 (global structure)와 지배적인 움직임 (dominant motion)을 포착하는 저해상도 표현인 전역 거친 가이드 (Global Coarse Guidance, GCG)를 구축합니다. 단순한 다운샘플링 (downsampling)과 달리, GCG는 희소한 전역 키프레임 (global keyframes)을 지역적 시간 창 (local temporal windows)과 결합하고 샘플링 중에 정보를 교환하는 새로운 전역-지역 프레임 스와핑 (global-local frame swapping) 메커니즘을 통해 구축됩니다. 이를 통해 GCG는 장기적인 구조적 일관성과 단기적인 시간적 역학 (temporal dynamics)을 통합된 표현 내에 인코딩할 수 있습니다. 이 표현의 가이드를 받아, HL-OutPaint는 공간적으로 상세하고 시간적으로 일관된 콘텐츠를 생성하기 위해 고해상도 아웃페인팅을 수행합니다. 전역 구조 모델링을 미세한 합성 (fine-grained synthesis)으로부터 분리함으로써, 우리의 프레임워크는 대규모 공간 확장 및 긴 비디오 시퀀스에 대해 안정적이고 일관된 생성을 달성합니다. 광범위한 실험을 통해 HL-OutPaint가 넓은 공간적 외삽과 긴 비디오 시퀀스를 포함하는 까다로운 시나리오에서 기존 방법들보다 뛰어난 성능을 보임을 입증하였습니다.

Insights

HL-OutPaint: 고해상도 장기 비디오를 위한 Coarse-to-Fine 비디오 아웃페인팅 (Video Outpainting)

요약

핵심 포인트

댓글

LLM의 답변이 틀렸을 때, 추적(Trace)을 확인해야 하는 이유. 이를 쉽게 도와주는 도구들

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다