
OmniDirector
요약
Kling Team이 개발한 OmniDirector는 멀티샷 비디오의 카메라 움직임을 추출하여 이미지에 복제할 수 있는 새로운 프레임워크입니다. 카메라 그리드 표현과 계층적 프롬프트 에이전트를 통해 캐릭터, 동작, 카메라 움직임을 정밀하게 제어합니다.
핵심 포인트
- 멀티샷 비디오의 카메라 움직임을 추출하여 이미지에 적용 가능
- 교차 쌍 데이터(cross-paired data) 없이도 작동 가능
- 카메라 그리드 표현을 통한 정밀한 카메라 제어 제공
- 계층적 프롬프트 에이전트로 캐릭터 및 동작 감독 수준의 제어 구현
Kling Team의 새로운 프레임워크는 멀티샷 (multi-shot) 비디오의 카메라 움직임을 추출하여 어떤 이미지에도 복제할 수 있습니다.
교차 쌍 데이터 (cross-paired data)가 필요하지 않습니다.
카메라 그리드 표현 (camera grid representation)과 계층적 프롬프트 에이전트 (hierarchical prompt agent)를 통해 캐릭터, 동작, 그리고 카메라에 대해 감독 수준의 제어를 제공합니다.
프로젝트 페이지:
https://ymlinfeng.github.io/OmniDirector.github.io/
…
논문:
https://paperswithcode.co/paper/2606.13432
…
코드:
https://github.com/lisj575/OmniDirector
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기