MedCase-Structured: 임상적으로 현실적인 EHR 환경에서 진단적 추론을 벤치마킹하기 위한 Text-to-FHIR 데이터셋
요약
임상적 추론 능력을 평가하기 위해 비구조화된 텍스트를 HL7 FHIR R4 형식으로 변환하는 MedCase-Structured 데이터셋을 제안합니다. LLM의 환각을 줄이기 위해 단계별 생성과 용어 기반 검증 파이프라인을 결합하여 구조적 일관성을 확보했습니다.
핵심 포인트
- 현실적인 EHR 환경을 반영한 Text-to-FHIR 데이터셋 구축
- 용어 기반 검증 및 수정을 통한 LLM의 환각 현상 감소
- 구조화된 FHIR 입력 시 LLM의 진단 정확도가 낮아지는 현상 발견
- 임상 의사결정 지원 시스템 평가를 위한 벤치마킹 중요성 강조
대규모 언어 모델 (LLMs)은 임상적 추론 (clinical reasoning) 및 의사결정 지원 (decision support) 분야에서 가능성을 보여주고 있으나, 현실적이고 전자 건강 기록 (EHR)과 일치하는 환경에서의 평가는 여전히 제한적입니다. 기존의 벤치마크 (benchmarks)는 임상 시스템에서 사용되는 구조화되고 상호 운용 가능한 데이터 형식을 반영하지 못하는 정적 데이터셋이나 비구조화된 입력값에 의존하는 경우가 많습니다. 본 연구에서는 비구조화된 텍스트로부터 임상적으로 현실적인 HL7 FHIR R4 번들 (bundles)을 생성하는 파이프라인을 소개하며, 이를 통해 임상 의사결정 지원 시스템 (clinical decision support systems)의 제어 가능한 평가를 가능하게 합니다. 이 파이프라인은 단계별 LLM 생성과 용어 기반 검증 (terminology-grounded validation) 및 수정 (repair)을 결합하여, 환각된 코드 (hallucinated codes)를 줄이고 구조적 및 의미적 일관성 (structural and semantic consistency)을 강제합니다. 이 접근 방식을 MedCaseReasoning에 적용하여, 우리는 임상의가 작성한 진단 사례와 정렬된 합성 데이터셋인 MedCase-Structured를 구축하였으며, 사례의 82.5%에 대해 유효한 FHIR 생성을 달성했습니다. MedCase-Structured를 통한 평가 결과, LLMs는 일반 텍스트를 사용할 때보다 구조화된 FHIR 입력을 사용할 때 진단 정확도가 일관되게 낮게 나타났으며, 이는 배포 환경과 일치하는 벤치마킹 (benchmarking)의 중요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기