본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 23. 14:16

제로샷 비디오 생성은 어떤 카메라 경로도 추적할 수 있다

요약

기하학적 인지 디퓨전 인터페이스를 통해 추가 학습 없이도 동결된 비디오 생성 모델이 임의의 카메라 궤적을 추적할 수 있는 제로샷 기술을 소개합니다. 카메라 워프를 합성된 히스토리로 변환하고 위치 인코딩을 정렬함으로써 시각적 충실도를 유지하며 카메라 제어 성능을 대폭 향상시켰습니다.

핵심 포인트

  • 추가 학습 없이 카메라 궤적을 따르는 제로샷 비디오 생성 구현
  • 카메라 준수율 지표를 기존 26.42에서 61.32로 대폭 향상
  • 타겟 프레임 위치 정렬을 통해 디노이징 과정의 안정성 확보
  • 기존의 대규모 사후 학습이나 비용이 많이 드는 최적화 방식 대체 가능

기하학적 인지 디퓨전 인터페이스 (geometry-aware diffusion interface)는 모든 카메라 워프 (camera warp)를 합성된 히스토리 (synthetic history)로 변환하여, 별도의 추가 학습 없이도 동결된 (frozen) 비디오 생성기가 임의의 궤적을 따를 수 있게 합니다. 저자들은 카메라 워프된 의사 히스토리 (pseudo-history)를 모델의 시각적 히스토리 경로 (visual-history pathway)를 통해 입력하고, 그 위치 인코딩 (positional encoding)을 타겟 프레임에 정렬함으로써 이를 달성하였으며, 이는 "동결된 비디오 생성 모델이 카메라 궤적을 따를 수 있는 놀라운 제로샷 (zero-shot) 능력을 보여준다" [1] 라고 설명합니다. 이 연구 이전에는 카메라 제어 비디오 합성 (camera-controlled video synthesis)을 위해 대규모 카메라 주석 코퍼스 (camera-annotated corpora)에 대한 대대적인 사후 학습 (post-training)을 수행하거나, 모션 큐 (motion cues)를 주입하기 위한 비용이 많이 드는 테스트 시간 최적화 (test-time optimization)가 필요했습니다. 기존의 파이프라인은 일반적으로 카메라 인코더 (camera encoders)를 추가하거나, 전용 제어 브랜치 (dedicated control branches)를 사용하거나, 어텐션 (attention) 및 위치 인코딩 (positional encodings)을 수정하여 모델을 파인튜닝 (fine-tuning) 중에 본 특정 모션 패턴에 종속시켰습니다. 제로샷 (zero-shot) 환경에서 Warp-as-History는 카메라 준수율 (camera adherence)을 두 배 이상 높였으며, 카메라 제어 (Camera Control) 지표가 26.42에서 61.32로 급증했고, 단일 샷 LoRA 파인튜닝 (LoRA finetune) 후에는 62.00에 도달하여 텍스트 전용인 Helios-Distilled 베이스라인 대비 약 133%의 상대적 이득을 얻었습니다 [1]. 그 결과, 시각적 충실도 (visual fidelity)를 유지하면서 제공된 카메라 포즈 (camera poses)를 충실히 추적하는 비디오가 생성됩니다. 타겟 프레임 위치 정렬 (Target-frame positional alignment)은 디노이징 (denoising)을 안정적으로 유지하는 핵심 요소입니다. 저자들은 "일반적인 디노이징은 안정적으로 유지되며, 그림 6은 제로샷 출력이 타겟 프레임 정렬 후 즉시 워프를 따르기 시작함을 보여준다" [1] 라고 언급했습니다. 이 정렬이 없다면 워프된 의사 히스토리는 잘못 등록된 토큰 (mis-registered tokens)을 유발하여 디퓨전 과정 (diffusion process)을 붕괴시킬 것입니다. 이 접근 방식은 여전히 최고 성능에 도달하기 위해 단일 카메라 주석 비디오에 대한 경량 오프라인 LoRA 파인튜닝 (LoRA finetune)에 의존하고 있으며, 이는 완전히 학습이 필요 없는 (training-free) 파이프라인은 주석이 달린 예시가 단 하나도 없는 도메인에서는 어려움을 겪을 수 있음을 시사합니다 [1].

한 가지 열린 질문은 소스 비디오가 희소하거나(sparse) 매우 비강체적인(non-rigid) 움직임만을 포함하는 경우에도 동일한 제로샷 충실도(zero-shot fidelity)가 유지되는지 여부이며, 이는 현재의 평가에서는 탐구되지 않은 시나리오입니다. 만약 보고된 이점들이 광범위하게 유지된다면, 카메라 제어 생성(camera-controlled generation)을 위한 벤치마크 제품군(benchmark suites)은 제로샷 트랙을 포함하도록 개정되어야 하며, 제작 파이프라인(production pipelines)은 비용이 많이 드는 모션 캡처(motion-capture) 세션을 단순한 리그(rigs)에서 유도된 즉석 포즈 지정(on-the-fly pose specifications)이나 심지어 합성 궤적(synthetic trajectories)으로 대체할 수 있습니다. 참고 문헌 Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0