본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 12:47

자동 질병 분류 매핑에서의 맵 카디널리티(Map Cardinality) 관리: 정밀도(Precision), 재현율(Recall) 및

요약

질병 분류 체계(ICD) 간의 자동 매핑 시 발생하는 일대다(one-to-many) 시나리오의 정밀도와 재현율 문제를 해결하기 위한 새로운 방법론을 제안합니다. LLM 기반의 블로킹 및 매칭 파이프라인을 통해 높은 정밀도와 넓은 커버리지를 동시에 달성했습니다.

핵심 포인트

  • 기존 임베딩 방식의 일대다 매핑 한계 극복
  • 블로킹 및 매칭 파이프라인을 통한 LLM 활용
  • 정밀도, 재현율, 매핑 커버리지 간의 트레이드오프 개선
  • ICD-9, ICD-10, ICD-11 등 다양한 버전에서 성능 검증

국제 질병 분류 (ICD)와 같은 질병 분류 체계 간의 자동 매핑은 보건 데이터를 통합하고 종단적 데이터 분석 (longitudinal data analysis)을 수행하는 데 있어 도전적이면서도 필수적인 과제입니다. 기존의 임베딩 기반 (embedding-based) 방법들은 주로 일대일 (one-to-one) 매핑에 집중하며, 더 복잡한 일대다 (one-to-many) 시나리오를 간과하고 있습니다. 임계값 기반 (threshold-based) 및 Top-K 방법들이 자연스러운 확장 방안을 제공하지만, 이들은 정밀도 (precision), 재현율 (recall), 그리고 매핑 커버리지 (mapping coverage) — 즉, 타겟 코드에 대해 최소 하나 이상의 매핑을 갖는 소스 코드의 비율 — 사이의 내재적인 트레이드오프 (trade-offs)를 수반합니다. 이러한 문제를 해결하기 위해, 우리는 엔티티 해상도 (entity resolution)에서 흔히 사용되는 블로킹 및 매칭 (blocking-and-matching) 파이프라인에서 영감을 얻은 새로운 방법을 소개합니다. 구체적으로, 우리는 먼저 후보 매칭 블록을 생성하고 (blocking), 그 다음 대규모 언어 모델 (LLM)을 사용하여 각 블록 내에서 모든 유효한 매핑을 식별합니다 (matching). 실증적으로, 우리는 제안된 방법이 여러 ICD 버전 쌍 (ICD-9-CM$\leftrightarrow$ICD-10-CM 및 ICD-10-AM$\leftrightarrow$ICD-11)에 대해 유사한 재현율과 더 넓은 커버리지를 유지하면서도 더 높은 정밀도를 달성함을 보여줍니다. 우리의 소스 코드와 데이터셋은 다음에서 확인할 수 있습니다: https://tinyurl.com/46kyn7wp.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0