야생에서의 유사분열 탐지: MIDOG 2025 챌린지에서의 다중 종양 및 문맥 인식 일반화
요약
MIDOG 2025 챌린지는 실제 임상 환경의 다양성에 대응하는 유사분열 탐지 모델의 강건성을 평가합니다. 12가지 종양 유형과 다양한 스캐닝 플랫폼을 포함한 데이터셋을 통해 기존 모델의 성능 한계와 사각지대를 분석했습니다.
핵심 포인트
- 다양한 종양 유형과 스캐닝 플랫폼에 대한 모델의 일반화 능력 평가
- 까다로운 영역(Hard Negatives)에서 가음성률이 급증하는 성능 저하 확인
- 비정형 유사분열 형상(AMF) 분류 트랙 도입 및 성능 분석
- 앙상블 기법은 성능 향상에 효과적이나 TTA는 유의미한 개선 미비
자동 유사분열 (Mitosis) 탐지는 계산 병리학 (Computational Pathology) 분야에서 잘 확립된 과제입니다. 이전의 벤치마크들이 스캐너로 인한 도메인 변화 (Domain Shift)에 집중했다면, 임상적인 "실제 환경 (Real-world)" 적용을 위해서는 모델이 조직학적 풍경에서 예상되는 방대한 변동성에 대해 강건성 (Robustness)을 갖추어야 합니다. MItosis DOmain Generalization (MIDOG) 2025 챌린지는 전례 없는 생물학적 및 문맥적 다양성에 걸친 알고리즘 성능을 평가하기 위해 설계되었습니다. 우리는 여러 스캐닝 플랫폼을 통해 디지털화된 12가지의 서로 다른 인간, 개, 고양이 종양 유형을 포함하는 365개 사례의 테스트 데이터셋을 큐레이션했습니다. 수동으로 선택된 핫스팟 (Hotspots)을 넘어, 이번 챌린지는 무작위 조직 영역 (전체 슬라이드 탐지 상황을 대표함) 및 까다로운 영역 (어려운 가음성 (Hard Negatives)이 풍부한 영역)에서의 탐지도 요구했습니다. 두 번째 트랙에서는 비정형 유사분열 형상 (Atypical Mitotic Figures, AMFs)의 분류를 도입했습니다. 탐지 (Detection) 트랙에는 18개 팀이 참여하였으며, F1 점수는 최대 0.740까지 나타났습니다. AMF 탐지 트랙에서는 21개의 제출물이 있었으며, 균형 정확도 (Balanced Accuracy) 값은 최대 0.908에 달했습니다. 우리의 분석에 따르면, 대부분의 모델이 전통적인 핫스팟에서는 안정적으로 작동하지만, 가음성률 (False Positive Rate)이 세 배로 증가하는 까다로운 관심 영역 (Regions of Interest, ROIs)에서는 상당한 성능 저하가 발생합니다. 또한, 성능은 12가지 종양 유형에 따라 크게 달랐으며, 이는 희귀하거나 다형성 (Pleomorphic)이 심한 악성 종양을 마주했을 때 현재의 최첨단 (State-of-the-art) 아키텍처들이 보이는 "사각지대 (Blind spots)"를 강조합니다. 더욱이, 우리는 앙상블 (Ensembling)의 효과를 평가하였으며, F1 점수와 균형 정확도에서 각각 평균 1.5%포인트와 1.3%포인트의 증가를 발견했습니다. 반면, 테스트 시 데이터 증강 (Test-Time Augmentation, TTA)은 유의미한 개선을 보이지 않았습니다. MIDOG 2025는 "야생 (In the wild)"에서의 유사분열 탐지가 여전히 큰 장애물임을 보여줍니다. 핫스팟 전용 평가에서 다중 문맥 프레임워크로의 전환은 임상적 신뢰성을 위한 더욱 현실적인 대리 지표를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기