본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 12:04

스페인어 임상 기록에서의 신뢰할 수 있는 자동 분류: 위험 인지형 HIV 의심 식별을 위한 하이브리드 프레임워크

요약

본 연구는 스페인어 임상 기록에서 HIV 의심 사례를 안전하게 식별하기 위한 위험 인지형 하이브리드 선택적 분류 프레임워크를 제안합니다. Mondrian conformal prediction과 Multi-Centroid Mahalanobis Distance를 결합하여 우연적 및 인식론적 불확실성을 분리함으로써, 기존 분류기들이 겪는 과도한 확신 문제와 커버리지 붕괴 문제를 해결합니다.

핵심 포인트

  • 기존 NLP 벤치마크의 결정론적 분류 방식이 초래하는 과도한 확신(overconfident predictions)의 위험성 지적
  • Mondrian conformal prediction을 통한 우연적 불확실성(aleatoric uncertainty)의 명시적 분리
  • Multi-Centroid Mahalanobis Distance를 활용한 인식론적 불확실성(epistemic uncertainty)의 분리 및 거부 메커니즘
  • 표준 불확실성 지표와 베이스라인 모델이 엄격한 신뢰성 제약 조건 하에서 겪는 커버리지 붕괴 문제 증명
  • 확률적 및 기하학적 보호 장치를 통해 신뢰할 수 있는 운영 영역을 성공적으로 격리

표준적인 임상 자연어 처리 (Natural Language Processing (NLP)) 벤치마크는 모호한 사례에 대해 결정론적 분류 (deterministic classification)를 강제함으로써 지표를 부풀리는 경우가 많으며, 이로 인해 과도하게 확신하는 예측 (overconfident predictions)이 초래하는 임상적 위험을 가리게 됩니다. 이러한 격차를 해소하기 위해, 본 연구에서는 스페인어 임상 기록에서의 초기 인간 면역 결핍 바이러스 (Human Immunodeficiency Virus (HIV)) 의심 식별을 대상으로 평가된 위험 인지형 하이브리드 선택적 분류 (hybrid selective classification) 프레임워크를 제안합니다. 우리의 이중 검증 (dual-verification) 접근 방식은 Mondrian conformal prediction을 통해 우연적 불확실성 (aleatoric uncertainty)을 명시적으로 분리하고, Multi-Centroid Mahalanobis Distance 거부 (veto)를 사용하여 인식론적 불확실성 (epistemic uncertainty)을 분리합니다. 실증적 평가 결과, 표준 불확실성 지표와 베이스라인 분류기 (baseline classifiers)는 안전한 의료 분류 (medical triage)를 수행하기에는 구조적으로 불충분하며, 엄격한 신뢰성 제약 조건 하에서 작동하도록 강제될 때 심각한 커버리지 붕괴 (coverage collapse)를 겪는 것으로 나타났습니다. 이와 대조적으로, 임상 서사가 확률적 및 기하학적 보호 장치를 모두 통과하도록 요구함으로써, 제안된 프레임워크는 매우 신뢰할 수 있는 운영 영역을 성공적으로 격리합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0