arXiv논문2026. 05. 06. 19:48

DMGD: 확산 모델 기반의 훈련 없는 데이터 디스틸레이션과 의미 분포 매칭

요약

본 논문은 대규모 데이터셋의 정보를 작은 합성 데이터셋으로 압축하는 확산 모델 기반의 데이터 디스틸레이션 기법을 제안합니다. 기존 방법들이 필요로 했던 추가적인 미세 조정 단계를 제거하고, 훈련 없는 효율적인 가이드를 중심으로 Dual Matching Guided Diffusion (DMGD) 프레임워크를 제시했습니다. DMGD는 의미 매칭과 오토모티브 트랜스포트(OT) 기반 분포 매칭을 결합하여 합성 데이터의 다양성을 유지하면서 목표 분포 구조에 효과적으로 정렬하는 것이 특징입니다.

핵심 포인트

DMGD 프레임워크를 통해 확산 모델 기반 데이터 디스틸레이션에서 추가 미세 조정(fine-tuning) 단계를 제거했습니다.
의미 매칭을 위해 조건부 확률 최적화를 사용하고, 보조 분류기 없이 의미 정렬을 수행합니다.
오토모티브 트랜스포트(OT) 기반 분포 매칭 접근법을 도입하여 목표 분포 구조와의 일치도를 높였습니다.
Distribution Approximate Matching 및 Greedy Progressive Matching과 같은 효율적인 전략으로 계산 오버헤드를 최소화했습니다.
ImageNet-Woof, ImageNet-Nette 등 여러 벤치마크에서 기존 SOTA 방법 대비 높은 정확도 향상을 입증했습니다.

데이터 디스틸레이션은 대규모 데이터셋의 정보를 훨씬 더 작은 합성 데이터셋으로 압축함으로써 효율적인 훈련을 가능하게 합니다. 최근 몇 년간 확산 기반 패러다임이 등장하여 데이터 디스틸레이션에 새로운 관점을 제시했습니다. 그러나 이러한 방법들은 일반적으로 추가적인 미세 조정 (fine-tuning) 단계를 필요로 하며, 효과적인 가이드 메커니즘은 여전히 충분히 연구되지 않았습니다. 이러한 한계를 해결하기 위해 우리는 훈련 없는 효율적인 가이드를 중심으로 확산 기반 데이터 디스틸레이션을 재고하고 Dual Matching Guided Diffusion (DMGD) 프레임워크를 제안합니다. 먼저 조건부 확률 최적화를 통한 의미 매칭 (Semantic Matching) 을 설정하여 보조 분류기를 제거합니다. 또한 합성 데이터의 다양성을 유지하면서 의미 정렬을 보장하는 동적 가이드 메커니즘을 제안합니다. 동시에 목표 분포 구조와 더 잘 맞추기 위해 오토모티브 트랜스포트 (OT) 기반 분포 매칭 접근법을 소개합니다. 효율성을 보장하기 위해 확산 기반 프레임워크를 위한 두 가지 향상된 전략인 Distribution Approximate Matching 과 Greedy Progressive Matching 을 개발했습니다. 이러한 전략들은 최소한의 계산 오버헤드와 효과적인 분포 매칭 가이드를 가능하게 합니다. ImageNet-Woof, ImageNet-Nette, 그리고 ImageNet-1K 의 실험 결과에서 우리의 훈련 없는 접근법이 유의미한 개선점을 달성함을 보여주며, 추가 미세 조정을 필요로 하는 최상위 (SOTA) 방법들에 비해 평균 정확도 향상 2.1%, 5.4%, 및 2.4% 로 우위를 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

DMGD: 확산 모델 기반의 훈련 없는 데이터 디스틸레이션과 의미 분포 매칭

요약

핵심 포인트

댓글