arXiv논문2026. 05. 06. 16:59

비디오 객체 중심 학습의 시간적 일관성 재고찰: 예측에서 대응으로

요약

본 논문은 비디오 객체 중심 학습(Video Object-Centric Learning)의 기존 접근 방식이 미래 객체 표현을 예측하는 데 의존하여 시간적 일관성을 유지하는 한계를 지적합니다. 연구진은 이러한 예측자가 사실상 이산적인 대응 문제에 대한 비용이 많이 드는 근사치임을 증명하며, 대신 현대 컴퓨터 비전 백본에서 추출된 인스턴스 판별적 특징을 활용할 것을 제안합니다. 그 결과, 학습 가능한 시간 모델링 파라미터를 제거하고 결정론적 쌍분 매칭(deterministic bipartite matching) 기반의 Grounded Correspondence 프레임워크를 도입하여 높은 성능과 효율성을 달성했습니다.

핵심 포인트

기존 비디오 객체 중심 학습은 미래 상태 예측에 의존하는 시간적 일관성 유지 방식의 한계를 가집니다.
제안된 Grounded Correspondence 프레임워크는 학습 가능한 시간 모델링 파라미터를 0개로 설정하여 효율성을 극대화합니다.
객체 간 동일성(frame-to-frame identity) 유지를 위해 결정론적 쌍분 매칭(deterministic bipartite matching)을 사용합니다.
이 방법은 기존의 복잡한 시간 예측 모델 없이도 MOVi-D, MOVi-E 등 주요 벤치마크에서 경쟁력 있는 성능을 보여줍니다.

비디오 객체 중심 학습 (Video Object-Centric Learning) 의 대안적 접근법은 미래 객체 표현 (slots) 을 예측하는 학습된 역학 모듈을 통해 시간적 일관성을 유지합니다. 우리는 이러한 예측자가 이산적 대응 문제 (discrete correspondence problems) 의 비싼 근사치임을 증명했습니다. 현대적인 자기지도식 컴퓨터 비전 백본은 이미 객체를 신뢰성 있게 구별할 수 있는 인스턴스 판별적 특징 (instance-discriminative features) 을 인코딩하고 있습니다. 이러한 특징을 활용하면 학습된 시간적 예측의 필요성을 제거할 수 있습니다. 우리는 학습된 전이 함수를 결정론적 쌍분 매칭 (deterministic bipartite matching) 으로 대체하는 Grounded Correspondence 프레임워크를 소개합니다. 슬롯은 동결된 백본 특징에서 두드러진 영역 (salient regions) 에서 초기화됩니다. 슬롯 표현에 대한 hungarian matching 을 통해 프레임 간 동일성 (frame-to-frame identity) 을 유지합니다. 이 접근법은 시간 모델링을 위한 학습 가능한 파라미터가 0 개이면서도 MOVi-D, MOVi-E, YouTube-VIS 에서 경쟁력 있는 성능을 달성합니다. 프로젝트 페이지: https://magenta-sherbet-85b101.netlify.app/

AI 자동 생성 콘텐츠

원문 바로가기

비디오 객체 중심 학습의 시간적 일관성 재고찰: 예측에서 대응으로

요약

핵심 포인트

댓글