구성 학습하기: Zero-Shot Composed Image Retrieval을 위한 프록시 태스크 설계의 재고

Composed Image Retrieval (CIR)은 참조 이미지(reference image)와 텍스트 수정 사항(textual modification)을 결합하여 대상 이미지를 검색합니다. 지도 학습 기반의 CIR은 비용이 많이 드는 트리플렛(triplets)에 의존하는 반면, Zero-Shot CIR (ZS-CIR)은 이미지-텍스트 쌍으로 학습된 프록시 태스크(proxy tasks)를 통해 이러한 의존성을 완화합니다. 그러나 기존의 프록시 태스크는 주로 고정된(frozen) 텍스트 인코더에 의사 단어 주입(pseudo-word injection)을 하거나 선형 특징 산술(linear feature arithmetic)을 사용하는 것과 같이, 미리 정의된 구성 메커니즘에 맞추기 위해 시각적 및 텍스트 표현을 강화하는 데 집중되어 있습니다. 그 결과, 구성 함수(composition function) 자체가 학습되지 않은 상태로 남아 모델이 다양하고 세밀한 의미론적 수정(semantic modifications)을 표현하는 능력을 제한합니다. 이를 해결하기 위해, 우리는 구성을 두 가지 조정된 단계로 모델링하는 FoCo를 제안합니다: 수정 사항과 관련된 시각적 콘텐츠에 집중(focusing)한 다음, 대상 의미론을 완성(completing)하는 단계입니다. 우리는 이를 두 가지 프록시 태스크를 통해 구현합니다: 국소적인 텍스트 의미론에 의해 유도되어 시각적 콘텐츠를 선택적으로 수집하는 텍스트 기반 시각적 집합(text-anchored visual aggregation), 그리고 이렇게 집합된 시각 정보와 나머지 장면 문맥(scene context)을 결합하여 일관된 구성 표현으로 변환하는 문맥 조건부 의미론적 완성(context-conditioned semantic completion)입니다. 이 태스크들은 인스턴스 간 교차 대조 목적 함수(cross-instance contrastive objective)와 함께 공동으로 학습되어, 의미론적 다양성을 장려하고 지름길 구성 전략(shortcut composition strategies)을 억제합니다. 네 가지 ZS-CIR 벤치마크에 대한 광범위한 실험을 통해 FoCo의 최첨단(state-of-the-art) 성능과 향상된 일반화 능력을 입증했습니다.

Insights

구성 학습하기: Zero-Shot Composed Image Retrieval을 위한 프록시 태스크 설계의 재고

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화