본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:01

QC-SMOTE: 불균형 분류를 위한 품질 제어형 SMOTE

요약

클래스 불균형 문제를 해결하기 위해 품질 제어형 오버샘플링 프레임워크인 QC-SMOTE를 제안합니다. 국소 밀도와 신뢰도 점수를 활용해 저품질 합성 샘플 생성을 방지하며, 데이터 기하학에 따라 적응적으로 샘플링을 수행합니다.

핵심 포인트

  • 복합 이웃 신뢰도 점수를 통한 소수 샘플 신뢰도 추정
  • IPQ 유도형 Best-of-K 전략으로 합성 후보의 순도 평가
  • 노이즈가 많은 영역에서 복제로 전환되는 우아한 성능 저하 메커니즘
  • 30개 데이터셋 실험 결과 AUC-ROC 및 Macro F1 성능 입증

클래스 불균형 (Class imbalance)은 분류 작업에서 중요한 과제를 제기하며, SMOTE와 같은 기존 방법들은 노이즈가 있거나 클래스가 중첩되는 영역에서 저품질의 합성 샘플 (synthetic samples)을 생성하는 경우가 많습니다. 우리는 국소 밀도 (local density), 안전 수준 (safe-level), 그리고 다수 클래스로부터의 고립도 (isolation from the majority class)를 결합한 복합 이웃 신뢰도 점수 (composite neighbourhood trustworthiness score)를 사용하여 소수 샘플의 신뢰도를 추정하는 품질 제어 오버샘플링 (quality-controlled oversampling) 프레임워크인 QC-SMOTE를 제안합니다. 합성 후보는 중간점 순도 (midpoint purity)를 평가하고, 필요한 경우 다수 클래스 여유 공간 (majority clearance)을 평가하는 IPQ 유도형 Best-of-K 전략을 사용하여 생성되며, 할당은 샘플 신뢰도와 경계 정보성 (boundary informativeness)에 의해 안내됩니다. 생성 동작은 중첩-불균형 레짐 (overlap--imbalance regimes) 전반에 걸쳐 적응하며, 국소 데이터 기하학 (local data geometry)에 맞추어 보간 범위 (interpolation range)와 선택 기준을 조정합니다. 이웃 순도가 적응형 임계값 (adaptive threshold) 미만으로 떨어지면 저품질 합성 샘플은 원래의 소수 샘플 복제본 (minority duplicates)으로 교체되며, 이를 통해 심각하게 노이즈가 많은 영역에서는 복제로 되돌아감으로써 우아한 성능 저하 (graceful degradation)를 제공합니다. 반복 층화 교차 검증 (repeated stratified cross-validation)을 사용하여 30개의 불균형 데이터셋에서 수행한 실험 결과, QC-SMOTE는 비교된 오버샘플링 방법들 중에서 가장 강력한 평균 AUC-ROC 및 Macro F1을 달성하였으며, 특히 중간 및 심각한 불균형 상황에서 뚜렷한 이득을 보였습니다. 이러한 결과는 강건한 불균형 분류를 위해 품질 인식 및 기하학 적응형 합성 샘플링 (quality-aware, geometry-adaptive synthetic sampling)이 중요하다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0