Dev.to헤드라인2026. 05. 23. 14:16

제로샷 비디오 생성은 어떤 카메라 경로도 추적할 수 있다

요약

기하학적 인지 디퓨전 인터페이스를 통해 추가 학습 없이도 동결된 비디오 생성 모델이 임의의 카메라 궤적을 추적할 수 있는 제로샷 기술을 소개합니다. 카메라 워프를 합성된 히스토리로 변환하고 위치 인코딩을 정렬함으로써 시각적 충실도를 유지하며 카메라 제어 성능을 대폭 향상시켰습니다.

핵심 포인트

추가 학습 없이 카메라 궤적을 따르는 제로샷 비디오 생성 구현
카메라 준수율 지표를 기존 26.42에서 61.32로 대폭 향상
타겟 프레임 위치 정렬을 통해 디노이징 과정의 안정성 확보
기존의 대규모 사후 학습이나 비용이 많이 드는 최적화 방식 대체 가능

기하학적 인지 디퓨전 인터페이스 (geometry-aware diffusion interface)는 모든 카메라 워프 (camera warp)를 합성된 히스토리 (synthetic history)로 변환하여, 별도의 추가 학습 없이도 동결된 (frozen) 비디오 생성기가 임의의 궤적을 따를 수 있게 합니다. 저자들은 카메라 워프된 의사 히스토리 (pseudo-history)를 모델의 시각적 히스토리 경로 (visual-history pathway)를 통해 입력하고, 그 위치 인코딩 (positional encoding)을 타겟 프레임에 정렬함으로써 이를 달성하였으며, 이는 "동결된 비디오 생성 모델이 카메라 궤적을 따를 수 있는 놀라운 제로샷 (zero-shot) 능력을 보여준다" [1] 라고 설명합니다. 이 연구 이전에는 카메라 제어 비디오 합성 (camera-controlled video synthesis)을 위해 대규모 카메라 주석 코퍼스 (camera-annotated corpora)에 대한 대대적인 사후 학습 (post-training)을 수행하거나, 모션 큐 (motion cues)를 주입하기 위한 비용이 많이 드는 테스트 시간 최적화 (test-time optimization)가 필요했습니다. 기존의 파이프라인은 일반적으로 카메라 인코더 (camera encoders)를 추가하거나, 전용 제어 브랜치 (dedicated control branches)를 사용하거나, 어텐션 (attention) 및 위치 인코딩 (positional encodings)을 수정하여 모델을 파인튜닝 (fine-tuning) 중에 본 특정 모션 패턴에 종속시켰습니다. 제로샷 (zero-shot) 환경에서 Warp-as-History는 카메라 준수율 (camera adherence)을 두 배 이상 높였으며, 카메라 제어 (Camera Control) 지표가 26.42에서 61.32로 급증했고, 단일 샷 LoRA 파인튜닝 (LoRA finetune) 후에는 62.00에 도달하여 텍스트 전용인 Helios-Distilled 베이스라인 대비 약 133%의 상대적 이득을 얻었습니다 [1]. 그 결과, 시각적 충실도 (visual fidelity)를 유지하면서 제공된 카메라 포즈 (camera poses)를 충실히 추적하는 비디오가 생성됩니다. 타겟 프레임 위치 정렬 (Target-frame positional alignment)은 디노이징 (denoising)을 안정적으로 유지하는 핵심 요소입니다. 저자들은 "일반적인 디노이징은 안정적으로 유지되며, 그림 6은 제로샷 출력이 타겟 프레임 정렬 후 즉시 워프를 따르기 시작함을 보여준다" [1] 라고 언급했습니다. 이 정렬이 없다면 워프된 의사 히스토리는 잘못 등록된 토큰 (mis-registered tokens)을 유발하여 디퓨전 과정 (diffusion process)을 붕괴시킬 것입니다. 이 접근 방식은 여전히 최고 성능에 도달하기 위해 단일 카메라 주석 비디오에 대한 경량 오프라인 LoRA 파인튜닝 (LoRA finetune)에 의존하고 있으며, 이는 완전히 학습이 필요 없는 (training-free) 파이프라인은 주석이 달린 예시가 단 하나도 없는 도메인에서는 어려움을 겪을 수 있음을 시사합니다 [1].

한 가지 열린 질문은 소스 비디오가 희소하거나(sparse) 매우 비강체적인(non-rigid) 움직임만을 포함하는 경우에도 동일한 제로샷 충실도(zero-shot fidelity)가 유지되는지 여부이며, 이는 현재의 평가에서는 탐구되지 않은 시나리오입니다. 만약 보고된 이점들이 광범위하게 유지된다면, 카메라 제어 생성(camera-controlled generation)을 위한 벤치마크 제품군(benchmark suites)은 제로샷 트랙을 포함하도록 개정되어야 하며, 제작 파이프라인(production pipelines)은 비용이 많이 드는 모션 캡처(motion-capture) 세션을 단순한 리그(rigs)에서 유도된 즉석 포즈 지정(on-the-fly pose specifications)이나 심지어 합성 궤적(synthetic trajectories)으로 대체할 수 있습니다. 참고 문헌 Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

AI 자동 생성 콘텐츠

원문 바로가기

제로샷 비디오 생성은 어떤 카메라 경로도 추적할 수 있다

요약

핵심 포인트

댓글