TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

이미지-비디오 (I2V) 생성에서 다중 객체의 모션을 제어하려면, 각 객체의 정체성 (identity)을 유지하면서 동시에 서로 다른 목표 궤적 (target trajectories)을 따르도록 강제해야 합니다. 이는 객체의 수가 증가하고 경로가 서로 교차하거나 가려지는 (occlude) 상황에서 특히 어려워집니다. 기존의 방식들은 여러 궤적을 공유된 밀집 조건 신호 (dense conditioning signal) 내에 얽어 놓음으로써, 혼잡한 장면에서 객체 수준의 대응 관계를 유지하기 어렵게 만듭니다. 우리는 이러한 패러다임에서 벗어나, 각 인스턴스를 독립적으로 격리하는 엄격한 객체별 공간 제약 (per object spatial constraint)을 적용합니다. 우리의 방법인 TrajLoc은 매 프레임마다 각 객체 토큰 (object token)의 교차 주의 집중 (cross-attention) 가중치를 해당 객체의 목표 위치를 중심으로 하는 가우시안 히트맵 (Gaussian heatmap)으로 대체함으로써 어텐션 레이어 (attention layers) 내에서 이를 직접 수행합니다. 동일한 객체별 토큰 인터페이스는 학습된 임베딩 (learned embedding)을 통해 궤적과 깊이 (depth)를 전달하며, 객체 토큰 대신 첫 번째 프레임의 외형을 인코딩하여 정체성을 보존합니다. 최대 20개의 객체가 동시에 제어되는 상황과 분포 외 (out of distribution) 실제 세계 장면을 포함하는 6개의 데이터셋에 대한 평가 결과, 우리의 방법이 시각적 충실도 (visual fidelity)와 궤적 준수 (trajectory adherence)를 모두 일관되게 향상시킨다는 것을 입증했습니다. 구조적으로 서로 다른 두 가지 백본 (backbones) (CogVideoX 5B 및 WaN 2.1 14B)에 적용했을 때, 우리의 접근 방식은 가장 강력한 베이스라인 (baselines)과 비교하여 평균 +4.3 dB PSNR 향상 및 궤적 종점 오차 (trajectory end point error) 51% 감소를 달성했습니다. 프로젝트 페이지: https://sela-omer.github.io/traj-loc/

Insights

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

요약

핵심 포인트

댓글

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다

AI는 결함을 인지하고도 고치지 않는다, OpenAI의 GeneBench-Pro가 측정하는 격차

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다

AI는 결함을 인지하고도 고치지 않는다, OpenAI의 GeneBench-Pro가 측정하는 격차