arXiv논문2026. 06. 17. 12:33

분류를 위한 데이터셋 증류(Dataset Distillation)에 대한 재고: 증류된 세트가 코어셋(Coresets)보다 성능이 우수한가?

요약

데이터셋 증류(DD) 기술이 기존의 코어셋(Coreset) 선택 방식보다 실제로 우수한지 비판적으로 분석한 연구입니다. 대규모 실험 결과, 최신 DD 방식들이 코어셋과 비슷하거나 오히려 성능이 낮고 비용은 더 높다는 점을 밝혀냈습니다.

핵심 포인트

데이터셋 증류(DD)와 코어셋(CS)의 성능을 표준화된 프로토콜로 비교
일부 DD 방법론은 무작위 부분 집합보다 성능이 낮을 수 있음
SOTA DD 방식은 코어셋 대비 높은 비용 대비 성능 이점이 제한적임
코어셋이 데이터 분포의 대표성, 다양성, 품질 측면에서 더 우수함

데이터셋 증류 (Dataset Distillation, DD)는 대규모 데이터셋의 정보를 소수의 합성 샘플로 압축하여 효율적인 학습을 위한 소형 학습 세트를 합성하는 것을 목표로 하는 데이터 중심 머신러닝 (Data-centric Machine Learning)의 유망한 접근 방식으로 부상했습니다. 그러나 DD 방법들은 표준적인 경험적 위험 최소화 (Empirical Risk Minimization, ERM)부터 단일/다중 교사 감독 (Single/Multi-teacher Supervision)에 이르기까지 일관되지 않은 평가 프로토콜 하에서 평가되는 경우가 많아, 평가 과정에서 증류된 데이터의 효과를 분리하여 파악하기 어렵게 만듭니다. 더욱이, 많은 기존 방법들은 응축된 데이터셋을 실제 샘플의 부분 집합으로 제한하는 것이 근본적으로 표현력 (Expressiveness)을 제한한다는 가정하에, DD가 코어셋 선택 (Coreset Selection, CS)과 같은 데이터 가지치기 (Data Pruning) 접근 방식보다 성능이 뛰어나다고 주장합니다. 본 연구에서는 DD 방법들의 본질적인 효과를 평가하기 위해 표준화된 데이터셋과 평가 프로토콜을 사용하여 대규모 실험을 통해 DD 방법들을 비판적으로 평가합니다. 우리는 세 가지 널리 채택된 학습 프로토콜을 사용하여 ImageNet-1K, ImageNet100, ImageNette에서 7가지 최첨단 (State-of-the-art, SOTA) DD 방법들을 세 가지 CS 전략과 비교하여 벤치마킹합니다. 연구 결과, 일부 DD 방법들은 단순한 무작위 부분 집합 (Random Subsets)보다도 성능이 떨어지는 반면, SOTA DD 접근 방식들은 대규모 데이터셋에서 코어셋과 비슷하거나 오히려 성능이 낮으며 구축을 위해 상당히 더 높은 비용이 발생한다는 것을 보여줍니다. 정확도 외에도 우리는 응축된 세트의 대표성 (Representativeness), 다양성 (Diversity), 품질 (Quality)을 평가하였으며, 코어셋이 원래 데이터 분포를 일관되게 더 잘 커버한다는 것을 발견했습니다. 이러한 결과는 현재 DD 방법들의 제한적인 실질적 이점을 강조하며, 코어셋이 여전히 경쟁력이 있고 데이터 중심 학습을 위한 더 계산 효율적인 대안인 경우가 많음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

분류를 위한 데이터셋 증류(Dataset Distillation)에 대한 재고: 증류된 세트가 코어셋(Coresets)보다 성능이 우수한가?

요약

핵심 포인트

댓글