arXiv논문2026. 06. 29. 11:04

개념 가이드를 통한 강건한 인컨텍스트 세그멘테이션(In-Context Segmentation)을 향하여

요약

본 연구는 참조 이미지의 변화에도 안정적인 결과를 생성하는 강건한 인컨텍스트 세그멘테이션(ICS)을 위한 CG-ICS 프레임워크를 제안합니다. MLLM 기반의 개념 추론과 SAM3를 활용하여 고수준의 의미론적 개념을 추출함으로써 기존 방식의 한계를 극복했습니다.

핵심 포인트

참조 이미지 변화에 따른 시스템 강건성 문제 해결
고수준 의미론적 개념 추출을 통한 새로운 패러다임 제시
MLLM 기반 개념 추론 및 SAM3 기반 스코어링 도입
SOTA 정확도 달성 및 참조 선택에 따른 결과 분산 감소

인컨텍스트 세그멘테이션 (In-Context Segmentation, ICS)은 모델이 파라미터를 업데이트하지 않고, 단 몇 개의 참조 이미지(reference images)와 그에 대응하는 마스크(masks)만을 사용하여 쿼리 이미지(query image) 내의 대상 영역을 분할(segment)할 것을 요구합니다. 최근의 발전에도 불구하고, 기존의 ICS 연구들은 중요한 측면인 시스템 강건성(system robustness), 즉 서로 다른 참조 이미지를 사용할 때 모델이 동일한 쿼리에 대해 안정적인 세그멘테이션 결과를 생성할 수 있는지 여부를 대체로 간과해 왔습니다. 본 연구에서는 강건성 관점에서 ICS를 재조명하고, 저수준의 시각적 매칭(low-level visual matching)에만 의존하는 대신 참조 이미지로부터 고수준의 의미론적 개념(high-level semantic concepts)을 추출하여 세그멘테이션을 수행하는 새로운 패러다임인 개념 가이드 인컨텍스트 세그멘테이션 (Concept-Guided In-Context Segmentation, CG-ICS)을 소개합니다. 구체적으로, CG-ICS는 MLLM을 사용하여 후보를 제안하는 개념 추론 모듈(concept reasoning module)과, 트리 탐색 정제(tree-search refinement)를 통해 신뢰할 수 있는 텍스트 개념을 선택하는 SAM3 기반 스코어링 함수(SAM3-driven scoring function)를 도입하며, 이와 함께 단순한 컨텍스트 구축을 통해 쿼리 측의 공간적 접지(spatial grounding)를 제공하는 병렬 시각적 예시 경로(parallel visual exemplar route)를 함께 제공합니다. 이후 텍스트 개념과 시각적 예시는 모두 동결된(frozen) SAM3 백본의 세그멘테이션 능력을 활성화하는 데 사용됩니다. 표준 ICS 벤치마크에 대한 광범위한 실험을 통해, CG-ICS가 최첨단(state-of-the-art) 정확도를 달성할 뿐만 아니라 강건성을 실질적으로 향상시켜, 다양한 참조 선택에 따라 분산을 크게 줄인 더욱 신뢰할 수 있는 ICS 시스템을 제공함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

개념 가이드를 통한 강건한 인컨텍스트 세그멘테이션(In-Context Segmentation)을 향하여

요약

핵심 포인트

댓글