TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)
요약
TrajLoc은 이미지-비디오 생성 시 다중 객체의 정체성을 유지하며 독립적인 궤적 제어를 가능하게 하는 새로운 연구입니다. 각 객체 토큰에 가우시안 히트맵 기반의 공간 제약을 적용하여 복잡한 장면에서도 정밀한 모션 제어를 구현합니다.
핵심 포인트
- 객체별 독립적인 공간 제약을 통한 정체성 및 궤적 유지
- 교차 주의 집중 가중치를 가우시안 히트맵으로 대체하는 방식 제안
- 최대 20개 객체의 동시 제어 및 높은 시각적 충실도 입증
- CogVideoX 및 WaN 백본 적용 시 성능 대폭 향상 확인
이미지-비디오 (I2V) 생성에서 다중 객체의 모션을 제어하려면, 각 객체의 정체성 (identity)을 유지하면서 동시에 서로 다른 목표 궤적 (target trajectories)을 따르도록 강제해야 합니다. 이는 객체의 수가 증가하고 경로가 서로 교차하거나 가려지는 (occlude) 상황에서 특히 어려워집니다. 기존의 방식들은 여러 궤적을 공유된 밀집 조건 신호 (dense conditioning signal) 내에 얽어 놓음으로써, 혼잡한 장면에서 객체 수준의 대응 관계를 유지하기 어렵게 만듭니다. 우리는 이러한 패러다임에서 벗어나, 각 인스턴스를 독립적으로 격리하는 엄격한 객체별 공간 제약 (per object spatial constraint)을 적용합니다. 우리의 방법인 TrajLoc은 매 프레임마다 각 객체 토큰 (object token)의 교차 주의 집중 (cross-attention) 가중치를 해당 객체의 목표 위치를 중심으로 하는 가우시안 히트맵 (Gaussian heatmap)으로 대체함으로써 어텐션 레이어 (attention layers) 내에서 이를 직접 수행합니다. 동일한 객체별 토큰 인터페이스는 학습된 임베딩 (learned embedding)을 통해 궤적과 깊이 (depth)를 전달하며, 객체 토큰 대신 첫 번째 프레임의 외형을 인코딩하여 정체성을 보존합니다. 최대 20개의 객체가 동시에 제어되는 상황과 분포 외 (out of distribution) 실제 세계 장면을 포함하는 6개의 데이터셋에 대한 평가 결과, 우리의 방법이 시각적 충실도 (visual fidelity)와 궤적 준수 (trajectory adherence)를 모두 일관되게 향상시킨다는 것을 입증했습니다. 구조적으로 서로 다른 두 가지 백본 (backbones) (CogVideoX 5B 및 WaN 2.1 14B)에 적용했을 때, 우리의 접근 방식은 가장 강력한 베이스라인 (baselines)과 비교하여 평균 +4.3 dB PSNR 향상 및 궤적 종점 오차 (trajectory end point error) 51% 감소를 달성했습니다. 프로젝트 페이지: https://sela-omer.github.io/traj-loc/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기