ViewSAM: 약식 감시 기반 크로스 뷰 참조 멀티 객체 추적 (CRMOT) 을 위한 시점 인식을 고려한 크로스 모달 의미 학습
요약
본 논문은 자연어 설명에 따라 여러 객체를 여러 카메라 시점에서 일관되게 추적하는 크로스 뷰 참조 멀티 객체 추적(CRMOT) 문제를 다룹니다. 기존 방법들이 고비용의 공간적 주석과 정체성 감독에 의존했던 한계를 극복하기 위해, 약식 감시(weak supervision) 접근 방식을 제안합니다. 연구진은 Foundation Model을 활용하여 생성된 트랙렛을 가짜 레이블(pseudo-label)로 사용하고, 시점 인식을 명시적으로 모델링한 ViewSAM이라는 2단계 프레임워크를 통해 강력한 크로스 뷰 참조 추적 성능을 달성했습니다.
핵심 포인트
- ViewSAM은 약식 감시 하에서 크로스 뷰 참조 멀티 객체 추적(CRMOT)의 새로운 접근 방식을 제시합니다.
- 기존 방법들이 요구하던 고비용의 공간적 주석 및 정체성 감독 의존도를 크게 줄였습니다.
- Foundation Model을 활용하여 생성된 트랙렛을 Pseudo-label로 재사용하고, 이를 통해 훈련 데이터셋 구축 비용을 절감했습니다.
- ViewSAM은 시점 인식을 명시적으로 모델링하여, 시점 변형에 따른 시각적 관측과 시점 불변 텍스트 표현 간의 차이를 연결합니다.
- 약간의 추가 파라미터만으로도 완전히 감독된 방법들과 경쟁할 수 있는 SOTA 성능을 달성했습니다.
크로스 뷰 참조 멀티 객체 추적 (Cross-view Referring Multi-Object Tracking, CRMOT) 은 자연어로 지정된 여러 개체를 여러 카메라 시점에서 전역적으로 일관된 정체성으로 추적하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 방법들은 비용이 많이 드는 프레임 수준 공간적 주석과 크로스 뷰 정체성 감독에 크게 의존합니다. 이러한 의존도를 줄이기 위해, 우리는 foundation model 의 능력을 활용하여 약식 감시 (weak supervision) 하에서 CRMOT 를 탐구했습니다. 그러나 우리의 경험적 연구는 SAM2 와 SAM3 과 같은 foundation model 을 직접 적용하더라도, even task-specific modifications 이 있더라도 참조 표현을 정확하게 이해하고 시점 간 일관된 정체성을 유지하는 데 실패함을 보여줍니다. 그럼에도 불구하고, 그들은 신뢰할 수 있는 객체 tracklet 을 생성하여 pseudo supervision 으로 사용될 수 있음을 입증했습니다. 따라서 우리는 foundation model 을 pseudo-label generator 로 재사용하고, 대략적인 supervise (object category labels) 만 사용하여 약식 감시 CRMOT 를 위한 2 단계 프레임워크를 제안합니다.
첫 번째 단계에서, 우리는 카메라 간 SAM3 생성 tracklet 을 정교화하고 연동하기 위해 Affinity-guided Cross-view Re-prompting 전략을 설계했습니다. 이는 다음 훈련을 위한 신뢰할 수 있는 크로스 뷰 pseudo labels 를 생성합니다. 두 번째 단계에서, 우리는 시점 인식을 명시적으로 모델링하는 CRMOT 모델인 ViewSAM 을 소개했습니다. ViewSAM 은 view-induced variations 을 학습 가능한 조건으로 공식화하여, 시점 변형 시각적 관측과 시점 불변 텍스트 표현 간의 간극을 연결하며, 약식 감시 하에서도 약 10% 추가 파라미터로 강력한 크로스 뷰 참조 추적을 가능하게 합니다. 광범위한 실험은 ViewSAM 이 약식 감시 하에서 SOTA 성능을 달성하고 완전히 감독된 방법과 경쟁력을 유지함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기