arXiv논문2026. 05. 08. 12:54

DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining

요약

DINORANKCLIP은 기존의 대조적 언어-이미지 사전 학습(CLIP) 모델이 가진 두 가지 주요 약점, 즉 순서 정보 손실과 지역 구조 민감도 부족 문제를 해결하기 위해 제안된 새로운 프레임워크입니다. 이 모델은 DINOv3 스터디를 활용하고 다중 스케일 퓨전 모듈 및 갈등 인식 게이트를 통합하여 시각적 표현의 공간적 정보를 보존합니다. 또한, 고차원 Plackett-Luce 순위 모델을 도입함으로써 기존 CLIP과 RANKCLIP보다 더 풍부한 순서 일관성 제약을 적용하며, 다양한 벤치마크에서 우수한 성능을 입증했습니다.

핵심 포인트

DINORANKCLIP은 CLIP의 InfoNCE 손실이 버리는 상대적 순서 정보와 전역 풀링으로 인한 지역 구조 민감도 부족 문제를 동시에 해결합니다.
DINOv3 스터디를 활용하고 다중 스케일 퓨전 모듈, 갈등 인식 게이트 등을 통합하여 시각-언어 정렬을 보존하면서 공간적 세부 정보를 유지합니다.
고차원 Plackett-Luce 순위 모델을 도입하여 기존의 CLIP(0차원) 및 RANKCLIP(1차원)보다 더 강력하고 풍부한 순서 일관성 제약을 제공합니다.
다양한 실험(순서 스윕, 5개 데이터셋 Fine-grained Probe 등)을 통해 매칭된 컴퓨팅 조건에서 CLIP, CyCLIP, ALIP, RANKCLIP 등을 일관되게 능가하는 성능을 보여줍니다.

대조적 언어 - 이미지 사전 학습 (CLIP) 은 두 가지 구조적 약점을 가지고 있습니다: 대칭적인 InfoNCE 손실은 불일치 인 배치 쌍 사이의 상대적 순서를 버리고, 전역 풀링은 시각적 표현을 의미론적 병목 현상으로 압축하여 세밀한 지역 구조에 대한 민감도가 낮습니다. RANKCLIP 은 목록 방식 Plackett-Luce 순위 일관성 손실을 사용하여 첫 번째 문제를 부분적으로 해결하지만, 그 모델은 엄격히 1 차원이며 두 번째 약점을 그대로 물려받습니다. 우리는 DINORANKCLIP 을 제안합니다: 이는 대조적 트렁크에 동결된 DINOv3 스터디를 쌍지그루 lightweight student 과 채널 - 공간 attention 을 가진 다중 스케일 퓨전 모듈, 자기 attention refiner 와 갈등 인식 게이트를 통해 1 차원까지 교차 모드 정렬을 보존합니다. 또한, 우리는 위치별 유틸리티에 attention-parameterised pairwise 와 tuple-wise transition terms 를 추가하여 고차원 Plackett-Luce 순위 모델을 소개했습니다. 이 가족은 CLIP 과 RANKCLIP 을 0 차원과 1 차원의 특수 경우로 포함하며, 모든 벤치마크에서 최적의 순서는 $R^*=3$ 입니다. 전체 경험적 연구 -- 순서 스윕, 5 개 데이터셋 Fine-grained Probe, 4 노드 Modality-Gap 분석, 6 변형 Fusion ablation -- 은 단일 8 GPU H100 노드에서 72 시간 동안 실행되며 Conceptual Captions 3M 에서 완전히 훈련됩니다. DINORANKCLIP 은 매칭된 컴퓨팅 조건에서 CLIP, CyCLIP, ALIP, RANKCLIP 을 일관되게 상회하며, 세밀한 및 out-of-distribution 평가에서 가장 직접적으로 지역 구조 추론을 스트레스를 가하는 경우에서 가장 큰 상대적 이득을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining

요약

핵심 포인트

댓글