arXiv논문2026. 06. 23. 14:17

비디오 역학 모델링을 위한 객체 중심 표현의 재고

요약

비지도 비디오 객체 추적 시 외형과 포즈가 얽혀 발생하는 정체성 유지 문제를 해결하기 위한 STAITUS 프레임워크를 제안합니다. 슬롯을 외형과 기하학적 포즈로 분리하고 적응형 게이팅 메커니즘을 도입하여 객체 추적의 안정성을 높였습니다.

핵심 포인트

외형과 기하학적 포즈를 명시적으로 분리하여 시간적 일관성 문제 해결
외형 공간에서만 시간적 정렬을 적용해 움직임 및 가려짐 대응력 강화
적응형 게이팅 메커니즘을 통한 장면 복잡도별 활성 슬롯 수 조절
기존 SOTA 모델 대비 세그멘테이션 품질 및 추적 안정성 향상

비지도 비디오 객체 추적 (Unsupervised video object tracking)은 수동 주석 없이 동적인 장면을 지속적이고 객체 중심적인 엔티티 (object-centric entities)로 분해하는 것을 목표로 합니다. 최근의 많은 접근 방식은 고정된 잠재 변수 세트("슬롯 (slots)")가 프레임 전반에 걸쳐 개별 객체를 나타내는 슬롯 기반 표현 (slot-based representations)에 의존합니다. 객체의 정체성을 유지하기 위해, 이러한 모델들은 슬롯 임베딩 (slot embeddings)에 시간적 일관성 (temporal consistency)을 강제합니다. 그러나 외형 (appearance)과 포즈 (pose)가 얽혀 있을 때, 이러한 일관성 목표는 객체의 움직임 및 시점 변화와 충돌합니다. 그 결과, 슬롯은 일관성 목표를 충족하기 위해 정적인 영역(예: 배경)에 고정되는 경향이 있는 반면, 전경 객체는 여러 슬롯에 걸쳐 파편화되거나 정체성이 빈번하게 교체됩니다. 이러한 한계를 해결하기 위해, 우리는 각 슬롯을 외형과 기하학적 포즈(위치/스케일)로 명시적으로 분리(disentangle)하는 통합 프레임워크인 STAITUS를 제안합니다. 이러한 분리 기술을 활용하여, STAITUS는 프레임 내 공간적 분리 (spatial separation)를 강제하고 외형 공간에서만 시간적 정렬 (temporal alignment)을 적용함으로써, 움직임, 가려짐 (occlusion), 객체의 진입/퇴장 상황에서도 더 선명한 마스크와 더 지속적인 정체성을 생성합니다. 또한, 과분할 (over-segmentation)을 완화하기 위해, 장면 복잡도에 맞춰 활성 슬롯의 수를 동적으로 조정하는 적응형 게이팅 메커니즘 (adaptive gating mechanism)을 도입합니다. 합성 및 실제 벤치마크에 대한 광범위한 실험을 통해, STAITUS가 세그멘테이션 품질과 추적 안정성 측면에서 최첨단 (state-of-the-art) 베이스라인들을 실질적으로 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오 역학 모델링을 위한 객체 중심 표현의 재고

요약

핵심 포인트

댓글