arXiv논문2026. 05. 05. 13:04

ViewSAM: 약식 감시 기반 크로스 뷰 참조 멀티 객체 추적 (CRMOT) 을 위한 시점 인식을 고려한 크로스 모달 의미 학습

요약

본 논문은 자연어 설명에 따라 여러 객체를 여러 카메라 시점에서 일관되게 추적하는 크로스 뷰 참조 멀티 객체 추적(CRMOT) 문제를 다룹니다. 기존 방법들이 고비용의 공간적 주석과 정체성 감독에 의존했던 한계를 극복하기 위해, 약식 감시(weak supervision) 접근 방식을 제안합니다. 연구진은 Foundation Model을 활용하여 생성된 트랙렛을 가짜 레이블(pseudo-label)로 사용하고, 시점 인식을 명시적으로 모델링한 ViewSAM이라는 2단계 프레임워크를 통해 강력한 크로스 뷰 참조 추적 성능을 달성했습니다.

핵심 포인트

ViewSAM은 약식 감시 하에서 크로스 뷰 참조 멀티 객체 추적(CRMOT)의 새로운 접근 방식을 제시합니다.
기존 방법들이 요구하던 고비용의 공간적 주석 및 정체성 감독 의존도를 크게 줄였습니다.
Foundation Model을 활용하여 생성된 트랙렛을 Pseudo-label로 재사용하고, 이를 통해 훈련 데이터셋 구축 비용을 절감했습니다.
ViewSAM은 시점 인식을 명시적으로 모델링하여, 시점 변형에 따른 시각적 관측과 시점 불변 텍스트 표현 간의 차이를 연결합니다.
약간의 추가 파라미터만으로도 완전히 감독된 방법들과 경쟁할 수 있는 SOTA 성능을 달성했습니다.

크로스 뷰 참조 멀티 객체 추적 (Cross-view Referring Multi-Object Tracking, CRMOT) 은 자연어로 지정된 여러 개체를 여러 카메라 시점에서 전역적으로 일관된 정체성으로 추적하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 방법들은 비용이 많이 드는 프레임 수준 공간적 주석과 크로스 뷰 정체성 감독에 크게 의존합니다. 이러한 의존도를 줄이기 위해, 우리는 foundation model 의 능력을 활용하여 약식 감시 (weak supervision) 하에서 CRMOT 를 탐구했습니다. 그러나 우리의 경험적 연구는 SAM2 와 SAM3 과 같은 foundation model 을 직접 적용하더라도, even task-specific modifications 이 있더라도 참조 표현을 정확하게 이해하고 시점 간 일관된 정체성을 유지하는 데 실패함을 보여줍니다. 그럼에도 불구하고, 그들은 신뢰할 수 있는 객체 tracklet 을 생성하여 pseudo supervision 으로 사용될 수 있음을 입증했습니다. 따라서 우리는 foundation model 을 pseudo-label generator 로 재사용하고, 대략적인 supervise (object category labels) 만 사용하여 약식 감시 CRMOT 를 위한 2 단계 프레임워크를 제안합니다.

첫 번째 단계에서, 우리는 카메라 간 SAM3 생성 tracklet 을 정교화하고 연동하기 위해 Affinity-guided Cross-view Re-prompting 전략을 설계했습니다. 이는 다음 훈련을 위한 신뢰할 수 있는 크로스 뷰 pseudo labels 를 생성합니다. 두 번째 단계에서, 우리는 시점 인식을 명시적으로 모델링하는 CRMOT 모델인 ViewSAM 을 소개했습니다. ViewSAM 은 view-induced variations 을 학습 가능한 조건으로 공식화하여, 시점 변형 시각적 관측과 시점 불변 텍스트 표현 간의 간극을 연결하며, 약식 감시 하에서도 약 10% 추가 파라미터로 강력한 크로스 뷰 참조 추적을 가능하게 합니다. 광범위한 실험은 ViewSAM 이 약식 감시 하에서 SOTA 성능을 달성하고 완전히 감독된 방법과 경쟁력을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ViewSAM: 약식 감시 기반 크로스 뷰 참조 멀티 객체 추적 (CRMOT) 을 위한 시점 인식을 고려한 크로스 모달 의미 학습

요약

핵심 포인트

댓글