DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining
요약
DINORANKCLIP은 기존의 대조적 언어-이미지 사전 학습(CLIP) 모델이 가진 두 가지 주요 약점, 즉 순서 정보 손실과 지역 구조 민감도 부족 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 DINOv3 스터디를 활용하고 다중 스케일 퓨전 모듈 및 갈등 인식 게이트를 통합하여 시각적 표현의 공간적 정보를 보존합니다. 또한, 고차원 Plackett-Luce 순위 모델을 도입함으로써 기존 CLIP과 RANKCLIP보다 더 풍부한 순서 일관성 제약을 적용하며, 다양한 벤치마크에서 우수한 성능을 입증했습니다.
핵심 포인트
- DINORANKCLIP은 CLIP의 InfoNCE 손실이 버리는 상대적 순서 정보와 전역 풀링으로 인한 지역 구조 민감도 부족 문제를 동시에 해결합니다.
- DINOv3 스터디를 활용하고 다중 스케일 퓨전 모듈, 갈등 인식 게이트 등을 통합하여 시각-언어 정렬을 보존하면서 공간적 세부 정보를 유지합니다.
- 고차원 Plackett-Luce 순위 모델을 도입하여 기존의 CLIP(0차원) 및 RANKCLIP(1차원)보다 더 강력하고 풍부한 순서 일관성 제약을 제공합니다.
- 다양한 실험(순서 스윕, 5개 데이터셋 Fine-grained Probe 등)을 통해 매칭된 컴퓨팅 조건에서 CLIP, CyCLIP, ALIP, RANKCLIP 등을 일관되게 능가하는 성능을 보여줍니다.
대조적 언어 - 이미지 사전 학습 (CLIP) 은 두 가지 구조적 약점을 가지고 있습니다: 대칭적인 InfoNCE 손실은 불일치 인 배치 쌍 사이의 상대적 순서를 버리고, 전역 풀링은 시각적 표현을 의미론적 병목 현상으로 압축하여 세밀한 지역 구조에 대한 민감도가 낮습니다. RANKCLIP 은 목록 방식 Plackett-Luce 순위 일관성 손실을 사용하여 첫 번째 문제를 부분적으로 해결하지만, 그 모델은 엄격히 1 차원이며 두 번째 약점을 그대로 물려받습니다. 우리는 DINORANKCLIP 을 제안합니다: 이는 대조적 트렁크에 동결된 DINOv3 스터디를 쌍지그루 lightweight student 과 채널 - 공간 attention 을 가진 다중 스케일 퓨전 모듈, 자기 attention refiner 와 갈등 인식 게이트를 통해 1 차원까지 교차 모드 정렬을 보존합니다. 또한, 우리는 위치별 유틸리티에 attention-parameterised pairwise 와 tuple-wise transition terms 를 추가하여 고차원 Plackett-Luce 순위 모델을 소개했습니다. 이 가족은 CLIP 과 RANKCLIP 을 0 차원과 1 차원의 특수 경우로 포함하며, 모든 벤치마크에서 최적의 순서는 $R^*=3$ 입니다. 전체 경험적 연구 -- 순서 스윕, 5 개 데이터셋 Fine-grained Probe, 4 노드 Modality-Gap 분석, 6 변형 Fusion ablation -- 은 단일 8 GPU H100 노드에서 72 시간 동안 실행되며 Conceptual Captions 3M 에서 완전히 훈련됩니다. DINORANKCLIP 은 매칭된 컴퓨팅 조건에서 CLIP, CyCLIP, ALIP, RANKCLIP 을 일관되게 상회하며, 세밀한 및 out-of-distribution 평가에서 가장 직접적으로 지역 구조 추론을 스트레스를 가하는 경우에서 가장 큰 상대적 이득을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기