arXiv논문2026. 05. 08. 12:44

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

요약

ActCam은 비디오 생성 과정에서 캐릭터의 동작과 카메라 궤적을 동시에 정밀하게 제어할 수 있는 Zero-Shot 방법을 제시합니다. 이 모델은 사전 학습된 이미지-비디오 확산 모델을 기반으로 하며, 장면 깊이와 캐릭터 포즈 조건을 입력받아 기하학적으로 일관된 비디오를 생성합니다. ActCam의 독특한 두 단계 조건부 스케줄링 프로세스는 초기 분해소에서 장면 구조를 강제하고, 이후 고주파수 세부 사항을 정교화하여 카메라 준수도와 동작 충실도를 크게 향상시킵니다.

핵심 포인트

ActCam은 비디오 생성에 있어 캐릭터의 움직임과 카메라 궤적을 동시에 제어하는 Zero-Shot 방법을 제공합니다.
모델은 장면 깊이 및 캐릭터 포즈 조건을 조건부 입력으로 사용하여 기하학적으로 일관된 출력을 보장합니다.
두 단계의 조건부 스케줄링(Stage-wise Conditioning)을 통해 초기 구조 강제와 고주파수 디테일 정교화를 분리하여 수행합니다.
특히 큰 뷰포인트 변화가 발생하는 도전적인 시나리오에서 높은 카메라 준수도와 동작 충실도를 입증했습니다.

예술적 응용 분야에서는 비디오 생성에 대해 성능과 cinematography(영화 촬영 기법) 에 대한 세밀한 제어가 필요합니다. 즉, 배우자의 동작과 카메라 궤적을 제어하는 것입니다. 우리는 ActCam 을 제시합니다. ActCam 은 영상의 새로운 장면으로 캐릭터 동작을 동시에 전달하고 내재 및 외재 카메라 파라미터의 프레임당 제어를 가능하게 하는 비디오 생성용 Zero-Shot 방법입니다. ActCam 은 장면 깊이와 캐릭터 포즈 조건으로 조건부 입력을 받는 사전 학습된 이미지-비디오 확산 모델 (image-to-video diffusion model) 을 기반으로 합니다. 움직이는 캐릭터가 있는 소스 비디오와 목표 카메라 동작이 주어지면, ActCam 은 프레임 간에 기하학적으로 일관된 포즈 및 깊이 조건을 생성합니다. 우리는 두 단계의 조건부 스케줄링을 가진 단일 샘플링 프로세스를 실행하여: 초기 분해소 (denoising) 단계에서 포즈와 희석된 깊이에 대해 조건을 부과하여 장면 구조를 강제하고, 이후 깊이는 제거되고 포즈 전용 가이드가 생성을 과도하게 제약하지 않고 고주파수 세부 사항을 정교화합니다. 우리는 ActCam 을 다양한 캐릭터 동작과 도전적인 뷰포인트 변화 (viewpoint changes) 를 포함하는 여러 벤치마크에서 평가했습니다. 우리는 ActCam 이 포즈 전용 제어와 다른 포즈 및 카메라 방법과 비교하여 카메라 준수도와 동작 충실도를 개선하고, 특히 큰 뷰포인트 변화 하에서는 인간 평가에서 선호된다는 것을 발견했습니다. 우리의 결과는 훈련 없이 강한 카메라 및 동작 제어를 가능하게 하는 신중한 카메라 일관성 조건부 (camera-consistent conditioning) 와 단계적 가이드가 중요함을 강조합니다. 프로젝트 페이지: https://elkhomar.github.io/actcam/.

AI 자동 생성 콘텐츠

원문 바로가기

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

요약

핵심 포인트

댓글