RCAP: 강건하고 클래스 인지적이며 확률적인 동적 데이터셋 프루닝 (Dynamic Dataset Pruning)
요약
RCAP은 모델 학습 시 정보 손실을 최소화하며 계산 비용을 줄이는 새로운 동적 데이터셋 프루닝 알고리즘입니다. 클래스별 손실을 기반으로 샘플링 비율을 적응적으로 조정하여 불균형한 데이터셋에서도 높은 정확도를 유지합니다.
핵심 포인트
- 클래스 인지적 및 확률적 접근을 통한 동적 데이터 프루닝 제안
- 불균형 데이터셋에서도 최악 그룹 정확도(worst-group accuracy) 유지
- 데이터의 10%만 사용해도 전체 학습 대비 성능 향상 및 8.69배 속도 개선
- 처음부터 학습, 전이 학습, 미세 조정 등 다양한 패러다임에서 검증 완료
동적 데이터 프루닝 (Dynamic data pruning) 기술은 모델 학습 과정에서 입력 데이터의 대표적인 하위 집합을 주기적으로 선택함으로써 정보 손실을 최소화하는 동시에 계산 비용을 줄이는 것을 목표로 합니다. 그러나 기존 방법들은 균형 잡힌 데이터셋과 불균형한 데이터셋 모두에서, 특히 높은 프루닝 비율 (pruning rates)에서 강력한 최악 그룹 정확도 (worst-group accuracy)를 유지하는 데 어려움을 겪는 경우가 많습니다. 이러한 과제를 해결하기 위해, 우리는 분류 작업을 위한 강건하고 클래스 인지적이며 확률적인 동적 데이터셋 프루닝 알고리즘인 RCAP을 제안합니다. RCAP은 각 개별 클래스에 대해 학습 하위 집합에 포함될 샘플의 비율을 추정하기 위해 폐쇄형 솔루션 (closed-form solution)을 적용합니다. 이 비율은 클래스별로 집계된 손실 (class-wise aggregated loss)을 사용하여 매 에포크 (epoch)마다 적응적으로 조정됩니다. 그 후, 클래스별 하위 집합을 채우기 위해 손실이 높은 샘플을 우선시하는 적응형 샘플링 전략 (adaptive sampling strategy)을 채택합니다. 우리는 처음부터 학습 (training from scratch), 전이 학습 (transfer learning), 미세 조정 (fine-tuning)의 세 가지 학습 패러다임에 걸쳐 5개의 서로 다른 모델을 사용하여, 클래스 균형 데이터셋부터 매우 불균형한 데이터셋까지 아우르는 6개의 다양한 데이터셋에서 RCAP을 평가합니다. 우리의 접근 방식은 모든 프루닝 비율에서 우수한 최악 그룹 정확도를 달성하며 최첨단 (state-of-the-art) 데이터셋 프루닝 방법들을 일관되게 능가합니다. 놀랍게도, 단 $10%$의 데이터만으로도 RCAP은 전체 데이터 학습과 비교했을 때 클래스 불균형 데이터셋에서 $1%$ 이상의 성능 향상을 제공하는 동시에 평균 $8.69\times$의 속도 향상을 제공합니다. 코드는 https://github.com/atif-hassan/RCAP-dynamic-dataset-pruning 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기