arXiv논문2026. 05. 25. 16:47

시각-언어 데이터셋 증류를 위한 멀티모달 분포 매칭 (Multimodal Distribution Matching)

요약

대규모 시각-언어 데이터셋을 효율적으로 압축하기 위한 멀티모달 분포 매칭(MDM) 프레임워크를 제안합니다. 데이터, 모델, 손실 수준에서 기하학적 인지를 통합하여 연산 비용을 줄이면서도 모달 간 정렬 품질을 유지합니다.

핵심 포인트

데이터, 모델, 손실 수준의 상호 보완적 구성 요소 통합
결합 임베딩 공간 내 클러스터 샘플링을 통한 데이터 초기화
혼합 교사(Mixed Teacher) 모델을 통한 가중치 공간 보간
기하학 인지 매칭 목적 함수로 단위 초구체 상의 분포 매칭
증류 비용 절감 및 다양한 아키텍처에서의 견고한 성능 입증

데이터셋 증류 (Dataset distillation)는 다운스트림 성능 (downstream performance)을 유지하면서 대규모 학습 세트를 소형의 합성 데이터셋으로 압축합니다. 현대의 시스템이 점점 더 쌍을 이룬 시각-언어 (vision-language) 입력값으로 작동함에 따라, 멀티모달 증류 (multimodal distillation)는 제한된 연산 및 메모리 예산 하에서 표현 품질 (representation quality)과 교차 모달 정렬 (cross-modal alignment)을 보존해야 하지만, 기존 방법들은 종종 과도한 연산을 요구하고 모달 간의 상관관계를 간과합니다. 이를 해결하기 위해, 우리는 효율적이고 일반화 가능한 멀티모달 증류를 위한 기하학 인지 프레임워크 (geometry-aware framework)인 멀티모달 분포 매칭 (Multimodal Distribution Matching, MDM)을 제시합니다. 구체적으로, MDM은 데이터, 모델, 그리고 손실 (loss) 수준에서 상호 보완적인 구성 요소들을 통합합니다. 데이터 수준에서는 결합 임베딩 공간 (joint embedding space) 내의 클러스터 (clusters)에서 샘플링함으로써 합성 이미지-텍스트 쌍을 초기화합니다. 모델 수준에서는 사전 학습된 앵커 (pretrained anchor)로부터의 각도 편차 (angular deviation)에 따라 가중치 공간 (weight space)에서 독립적으로 미세 조정 (fine-tuned)된 모델들을 보간 (interpolating)하여 혼합 교사 (mixed teacher)를 형성합니다. 손실 수준에서는 대칭적 대조 학습 (symmetric contrastive learning)과 함께 교차 모달 일치 (cross-modal agreement) 및 불일치 (discrepancy) 방향을 따르는 결합 특징 (joint features)을 활용하는 기하학 인지 매칭 목적 함수를 사용하여 단위 초구체 (unit hypersphere) 상의 결합 분포를 매칭합니다. 교차 아키텍처 평가를 포함한 이미지-텍스트 검색 벤치마크 전반에 걸쳐, MDM은 멀티모달 의미론 (multimodal semantics)을 보존하고, 증류 비용을 실질적으로 절감하며, 다양한 아키텍처에 걸쳐 견고함을 유지하는 소형 합성 세트를 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-언어 데이터셋 증류를 위한 멀티모달 분포 매칭 (Multimodal Distribution Matching)

요약

핵심 포인트

댓글