오분류된 이미지를 식별하기 위한 엔트로피 재고찰
요약
훈련 역학을 활용하여 데이터셋 내 오분류된 샘플을 탐지하는 새로운 방법론인 SEI(signed entropy integral)를 제안합니다. 올바른 라벨은 엔트로피가 감소하지만 오분류된 샘플은 높은 엔트로피를 유지한다는 점을 이용하며, 의료 영상 분야에서 뛰어난 성능을 입증했습니다.
핵심 포인트
- 훈련 과정 중 엔트로피 변화 추이를 활용한 오분류 데이터 탐지
- 새로운 통계량인 SEI(signed entropy integral) 도입
- CLIP 아키텍처와 통합 시 높은 효과 입증
- 의료 영상 데이터셋 실험을 통해 SOTA 성능 달성 확인
훈련 데이터셋 내의 오분류된 샘플(Mislabeled samples)은 과매개변수화된 모델(overparameterized models)이 잘못된 라벨을 암기하는 경향이 있기 때문에 딥 네트워크(deep networks)의 성능을 심각하게 저하시킵니다. 본 연구에서는 훈련 역학(training dynamics)을 활용하는 새로운 오분류 데이터 탐지 접근 방식을 제안하여 이 문제를 해결합니다. 우리의 방법은 올바르게 라벨링된 샘플은 훈련 중에 일관된 엔트로피(entropy) 감소를 보이는 반면, 오분류된 샘플은 훈련 과정 전반에 걸쳐 상대적으로 높은 엔트로피를 유지한다는 핵심적인 관찰에 근거합니다. 이러한 통찰을 바탕으로, 우리는 훈련 에포크(epochs)에 따른 예측 엔트로피의 크기와 시간적 추세를 모두 포착하는 부호 엔트로피 적분(signed entropy integral, SEI) 통계량을 도입합니다. SEI는 분류 네트워크(classification networks)에 폭넓게 적용 가능하며, 대조적 언어-이미지 사전 학습(contrastive language-image pretraining, CLIP) 아키텍처와 통합될 때 특히 효과적임을 입증합니다. 진단적 복잡성으로 인해 라벨링 오류에 특히 취약한 분야인 의료 영상 분야의 네 가지 의료 영상 데이터셋(다양한 양상 및 병리학 포함)에 대한 광범위한 실험을 통해, 우리는 SEI가 계산 효율성과 구현의 단순성을 유지하면서 기존 방법들을 능가하며 오분류 데이터 식별에서 최첨단(state-of-the-art) 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/MedAITech/SEI 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기