arXiv논문2026. 06. 02. 10:47

다중 시점 참조 분할(Multi-temporal Referring Segmentation)을 위한 오픈 소스 벤치마크 및 베이스라인

요약

다중 시점 이미지에서 언어 지시사항에 따라 시간적 변화를 분할하는 새로운 작업인 MTRS를 제안합니다. 이를 위해 최초의 벤치마크인 MTRefSeg-21K와 2단계 학습 전략을 사용하는 MTRefSeg-R1 프레임워크를 선보입니다.

핵심 포인트

새로운 MTRS 작업 및 MTRefSeg-21K 벤치마크 구축
CRAFT-Agent를 활용한 고품질 데이터 구축 파이프라인 제안
시각 전용 학습 후 언어 가이드 미세 조정을 수행하는 2단계 전략
기존 LVLM 대비 우수한 시간적 변화 인식 및 마스크 예측 성능

대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 강력한 시각적 이해력과 언어 가이드 기반의 그라운딩 (grounding) 능력을 보여주었으나, 다중 시점 (multi-temporal) 시각적 추론 능력은 여전히 미개척 분야로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 다중 시점 이미지에서 언어로 설명된 시간적 변화를 분할하는 것을 목표로 하는 새로운 작업인 extbf{다중 시점 참조 분할 (Multi-temporal Referring Segmentation, MTRS)}을 소개합니다. MTRS는 시간적 대응 추론 (temporal correspondence reasoning), 언어 그라운딩 (language grounding), 그리고 픽셀 수준의 마스크 예측 (pixel-level mask prediction)을 공동으로 요구함으로써 기존의 참조 분할 (referring segmentation) 및 변화 탐지 (change detection)를 확장합니다. 우리는 인간의 검수를 포함하는 자동화된 데이터 구축 파이프라인인 extbf{CRAFT-Agent}를 제안하며, 다양한 장면, 시점 및 도메인에 걸쳐 21,000개의 고품질 다중 시점 이미지-텍스트-마스크 삼중항을 포함하는 최초의 MTRS 벤치마크인 extbf{MTRefSeg-21K}를 구축합니다. 광범위한 VLM 및 LVLM 기반 모델들을 벤치마킹한 결과, 직접적인 추론 (direct inference)은 성능이 저조한 반면, 작업 특화 미세 조정 (task-specific fine-tuning)은 여전히 제한적임을 확인했습니다. 이를 해결하기 위해, 우리는 2단계 전략으로 학습된 변화 인식 LVLM 프레임워크인 extbf{MTRefSeg-R1}을 제안합니다. 이 모델은 먼저 20,000개의 시각 전용 이중 시점 샘플 (vision-only bi-temporal samples)로부터 일반적인 시간적 변화 인식을 학습한 다음, 세밀한 언어 가이드 기반 시간적 국소화 (temporal localization)를 위해 MTRefSeg-21K에서 미세 조정을 거칩니다. MTRefSeg-R1은 시점 간 시각적 차이를 명시적으로 모델링하고, 언어 지시사항을 시간적 변화와 정렬하며, 참조된 변화 마스크를 예측합니다. 광범위한 실험을 통해 MTRefSeg-R1이 기존 LVLM 베이스라인과 비교하여 강력하고 종종 우수한 성능을 달성함을 보여주었으며, 이는 MTRS의 도전 과제와 잠재력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 시점 참조 분할(Multi-temporal Referring Segmentation)을 위한 오픈 소스 벤치마크 및 베이스라인

요약

핵심 포인트

댓글