구성 학습하기: Zero-Shot Composed Image Retrieval을 위한 프록시 태스크 설계의 재고
요약
Zero-Shot Composed Image Retrieval(ZS-CIR)의 성능을 높이기 위해 새로운 프록시 태스크를 제안하는 FoCo 프레임워크를 소개합니다. 기존 방식의 한계를 극복하기 위해 시각적 콘텐츠에 집중하고 의미론적 완성을 수행하는 두 단계 모델링을 통해 최첨단 성능을 달성했습니다.
핵심 포인트
- 기존 ZS-CIR의 고정된 구성 메커니즘 한계 지적
- 시각적 콘텐츠 집중 및 의미론적 완성을 위한 FoCo 제안
- 텍스트 기반 시각적 집합 및 문맥 조건부 의미론적 완성 태스크 도입
- 4개 벤치마크 실험을 통해 SOTA 성능 및 일반화 능력 입증
Composed Image Retrieval (CIR)은 참조 이미지(reference image)와 텍스트 수정 사항(textual modification)을 결합하여 대상 이미지를 검색합니다. 지도 학습 기반의 CIR은 비용이 많이 드는 트리플렛(triplets)에 의존하는 반면, Zero-Shot CIR (ZS-CIR)은 이미지-텍스트 쌍으로 학습된 프록시 태스크(proxy tasks)를 통해 이러한 의존성을 완화합니다. 그러나 기존의 프록시 태스크는 주로 고정된(frozen) 텍스트 인코더에 의사 단어 주입(pseudo-word injection)을 하거나 선형 특징 산술(linear feature arithmetic)을 사용하는 것과 같이, 미리 정의된 구성 메커니즘에 맞추기 위해 시각적 및 텍스트 표현을 강화하는 데 집중되어 있습니다. 그 결과, 구성 함수(composition function) 자체가 학습되지 않은 상태로 남아 모델이 다양하고 세밀한 의미론적 수정(semantic modifications)을 표현하는 능력을 제한합니다. 이를 해결하기 위해, 우리는 구성을 두 가지 조정된 단계로 모델링하는 FoCo를 제안합니다: 수정 사항과 관련된 시각적 콘텐츠에 집중(focusing)한 다음, 대상 의미론을 완성(completing)하는 단계입니다. 우리는 이를 두 가지 프록시 태스크를 통해 구현합니다: 국소적인 텍스트 의미론에 의해 유도되어 시각적 콘텐츠를 선택적으로 수집하는 텍스트 기반 시각적 집합(text-anchored visual aggregation), 그리고 이렇게 집합된 시각 정보와 나머지 장면 문맥(scene context)을 결합하여 일관된 구성 표현으로 변환하는 문맥 조건부 의미론적 완성(context-conditioned semantic completion)입니다. 이 태스크들은 인스턴스 간 교차 대조 목적 함수(cross-instance contrastive objective)와 함께 공동으로 학습되어, 의미론적 다양성을 장려하고 지름길 구성 전략(shortcut composition strategies)을 억제합니다. 네 가지 ZS-CIR 벤치마크에 대한 광범위한 실험을 통해 FoCo의 최첨단(state-of-the-art) 성능과 향상된 일반화 능력을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기