ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
요약
ActCam은 비디오 생성 과정에서 캐릭터의 동작과 카메라 궤적을 동시에 정밀하게 제어할 수 있는 Zero-Shot 방법을 제시합니다. 이 모델은 사전 학습된 이미지-비디오 확산 모델을 기반으로 하며, 장면 깊이와 캐릭터 포즈 조건을 입력받아 기하학적으로 일관된 비디오를 생성합니다. ActCam의 독특한 두 단계 조건부 스케줄링 프로세스는 초기 분해소에서 장면 구조를 강제하고, 이후 고주파수 세부 사항을 정교화하여 카메라 준수도와 동작 충실도를 크게 향상시킵니다.
핵심 포인트
- ActCam은 비디오 생성에 있어 캐릭터의 움직임과 카메라 궤적을 동시에 제어하는 Zero-Shot 방법을 제공합니다.
- 모델은 장면 깊이 및 캐릭터 포즈 조건을 조건부 입력으로 사용하여 기하학적으로 일관된 출력을 보장합니다.
- 두 단계의 조건부 스케줄링(Stage-wise Conditioning)을 통해 초기 구조 강제와 고주파수 디테일 정교화를 분리하여 수행합니다.
- 특히 큰 뷰포인트 변화가 발생하는 도전적인 시나리오에서 높은 카메라 준수도와 동작 충실도를 입증했습니다.
예술적 응용 분야에서는 비디오 생성에 대해 성능과 cinematography(영화 촬영 기법) 에 대한 세밀한 제어가 필요합니다. 즉, 배우자의 동작과 카메라 궤적을 제어하는 것입니다. 우리는 ActCam 을 제시합니다. ActCam 은 영상의 새로운 장면으로 캐릭터 동작을 동시에 전달하고 내재 및 외재 카메라 파라미터의 프레임당 제어를 가능하게 하는 비디오 생성용 Zero-Shot 방법입니다. ActCam 은 장면 깊이와 캐릭터 포즈 조건으로 조건부 입력을 받는 사전 학습된 이미지-비디오 확산 모델 (image-to-video diffusion model) 을 기반으로 합니다. 움직이는 캐릭터가 있는 소스 비디오와 목표 카메라 동작이 주어지면, ActCam 은 프레임 간에 기하학적으로 일관된 포즈 및 깊이 조건을 생성합니다. 우리는 두 단계의 조건부 스케줄링을 가진 단일 샘플링 프로세스를 실행하여: 초기 분해소 (denoising) 단계에서 포즈와 희석된 깊이에 대해 조건을 부과하여 장면 구조를 강제하고, 이후 깊이는 제거되고 포즈 전용 가이드가 생성을 과도하게 제약하지 않고 고주파수 세부 사항을 정교화합니다. 우리는 ActCam 을 다양한 캐릭터 동작과 도전적인 뷰포인트 변화 (viewpoint changes) 를 포함하는 여러 벤치마크에서 평가했습니다. 우리는 ActCam 이 포즈 전용 제어와 다른 포즈 및 카메라 방법과 비교하여 카메라 준수도와 동작 충실도를 개선하고, 특히 큰 뷰포인트 변화 하에서는 인간 평가에서 선호된다는 것을 발견했습니다. 우리의 결과는 훈련 없이 강한 카메라 및 동작 제어를 가능하게 하는 신중한 카메라 일관성 조건부 (camera-consistent conditioning) 와 단계적 가이드가 중요함을 강조합니다. 프로젝트 페이지: https://elkhomar.github.io/actcam/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기