arXiv논문2026. 06. 12. 11:29

OmniDirector: 교차 쌍 데이터 없이 일반적인 다중 샷 카메라 클로닝

요약

본 논문은 교차 쌍 데이터 없이도 일반적인 다중 샷 카메라 클로닝을 수행하는 OmniDirector라는 프레임워크를 제안합니다. 이 프레임워크는 카메라 움직임을 그리드 모션 비디오로 인코딩하여, 캐릭터, 액션, 카메라에 대한 감독 수준의 통합적 제어를 제공합니다. 이를 통해 높은 성능과 뛰어난 제어 가능성을 입증했습니다.

핵심 포인트

교차 쌍 데이터 없이 다중 샷 클로닝 구현
카메라 움직임을 그리드 모션 비디오로 인코딩
OmniDirector를 통한 감독 수준의 통합적 제어 제공

참조 비디오에서 카메라 움직임을 복제하는 것은 비디오 생성에서 중요한 작업입니다. 왜냐하면 비디오는 직관적이고 정확한 제어를 제공하기 때문입니다. 기존 방법들은 파라미터 기반 표현을 직접 사용하지만, 이는 다중 샷 생성을 처리하지 못하거나, 데이터 희소성으로 인해 성능이 떨어지는 교차 쌍 데이터를 합성하는 경향이 있습니다. 이러한 문제들을 해결하기 위해, 우리는 카메라를 그리드 모션 비디오로 인코딩하는 일반적인 카메라 움직임 표현을 도입합니다. 이 카메라 그리드는 카메라 파라미터를 시각적으로 나타내며, 다중 샷 비디오 생성을 위한 다양한 궤적의 통합을 지원합니다. 이를 기반으로, 우리는 OmniDirector라는 통일된 프레임워크를 제안합니다. 이 프레임워크는 백만 규모의 카메라 그리드-비디오 쌍으로 학습되었으며, 캐릭터, 액션, 그리고 카메라를 조정하여 멀티모달 확산 트랜스포머에 감독(director)-수준의 제어를 제공합니다. 나아가, 우리는 신호 간 관계 이해를 통해 카메라 움직임과 시각적 콘텐츠를 체계적으로 설명함으로써 다양한 제어 신호를 조화롭게 통합하는 새로운 계층적 프롬프트 확장 에이전트를 설계했습니다. 광범위한 실험들은 우리의 프레임워크가 우수한 성능과 뛰어난 제어 가능성을 입증함을 보여줍니다. 프로젝트 페이지: https://ymlinfeng.github.io/OmniDirector.github.io/

AI 자동 생성 콘텐츠

원문 바로가기

OmniDirector: 교차 쌍 데이터 없이 일반적인 다중 샷 카메라 클로닝

요약

핵심 포인트

댓글