arXiv논문2026. 06. 25. 22:36

데이터가 부족한 다중 인스턴스 학습(MIL)에서 환자 증강을 위한 임베딩 재혼합(Re-mixing Embeddings)

요약

데이터가 부족한 의료 분야의 다중 인스턴스 학습(MIL)을 위해 임베딩 공간에서 새로운 환자를 생성하는 '임베딩 재혼합(Re-mixing Embeddings)' 기법을 제안합니다. GMM을 활용해 질병 특이적 통계 분포를 학습하고, 이를 통해 희귀 질환 진단 및 데이터 부족 문제를 해결합니다.

핵심 포인트

GMM 기반의 확률적 클러스터링을 통한 환자 증강 방식 제안
임베딩 재혼합을 통해 오프라인에서 새로운 환자 데이터 생성 가능
불확실성 정량화를 통한 고품질 증강 데이터 선택
희귀 질환 및 저데이터 환경에서 기존 베이스라인 대비 성능 향상 입증

데이터 부족은 의료 분야의 다중 인스턴스 학습 (Multiple Instance Learning, MIL), 특히 희귀 질환이나 비용이 많이 드는 양식 (modalities)에서 주요한 병목 현상입니다. 우리는 임베딩 공간 (embedding space)에서 직접 현실적인 환자를 생성하는 통계적으로 근거 있는 환자 증강 (patient augmentation) 접근 방식을 소개합니다. 모든 환자의 풀링된 인스턴스 임베딩 (instance embeddings)에 대해 확률적 클러스터링 (probabilistic clustering) 접근 방식인 가우시안 혼합 모델 (Gaussian Mixture Models, GMM)을 사용하여, 우리의 방법은 질병 특이적인 "레시피 (recipes)" — 즉, 비지도 클러스터 (unsupervised clusters) 전반에 걸친 인스턴스들의 통계적 분포 — 를 학습합니다. 그런 다음 학습된 레시피를 기반으로 클러스터에서 임베딩을 샘플링하여 새로운 환자를 생성합니다. 모든 카테고리의 예시가 필요한 기존 방법들과 달리, 우리의 방법은 풀링된 임베딩을 재혼합 (re-mixing)함으로써 오프라인으로 환자를 생성할 수 있습니다. 생성된 환자들은 MIL 성능을 향상시키기 위해 불확실성 정량화 (uncertainty quantification)를 기반으로 추가 선택됩니다. 우리는 세 가지 임상적으로 관련 있는 데이터 부족 시나리오에 대해 우리의 방법을 평가합니다: (i) 교차 데이터셋 전이 (cross-dataset transfer): 외부 코호트 (external cohort)의 통계를 사용하여 완전히 누락된 "건강한 (healthy)" 클래스를 생성함; (ii) 저데이터 환경 (low-data regimes): 클래스 크기가 극도로 제한됨; (iii) 단일 세포 RNA-seq (single-cell RNA-seq) 및 유세포 분석 (flow cytometry)을 포함한 소규모 코호트 비이미지 작업. 모든 실험에 걸쳐, 우리의 방법은 베이스라인 (baseline) 대비 성능을 향상시키며, 종종 다른 백 믹싱 (bag-mixing) 전략보다 뛰어난 성능을 보입니다. 특히, 누락된 클래스 시나리오에서 전체 데이터셋 학습과 유사한 성능을 달성하여, 희귀 질환 진단 및 개인정보 보호가 가능한 환자 증강 (privacy-preserving patient augmentation)에 대한 잠재력을 입증했습니다. 코드는 https://github.com/marrlab/RECIPE 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

데이터가 부족한 다중 인스턴스 학습(MIL)에서 환자 증강을 위한 임베딩 재혼합(Re-mixing Embeddings)

요약

핵심 포인트

댓글