arXiv논문2026. 06. 17. 11:29

AIPatient Arena: 엔드투엔드 임상 상담 워크플로우에서 EHR에 기반한 대규모 언어 모델(LLM) 평가

요약

AIPatient Arena는 EHR 데이터를 활용해 LLM의 임상 상담 역량을 다회차 상호작용 관점에서 평가하는 새로운 프레임워크입니다. 연구 결과, 모델은 질문 기술과 윤리적 행동에서는 우수했으나 진단 정확도와 모호한 응답 처리에는 한계를 보였습니다.

핵심 포인트

EHR 기반 지식 그래프를 통한 다회차 의사-환자 상호작용 구현
임상 역량 8개 차원에 걸친 프로세스 중심의 평가 체계 제안
질문 기술 및 윤리적 행동은 우수하나 진단 추론 및 정보 범위는 취약
단순 결과 중심 평가를 넘어 상담 과정 전반의 평가 중요성 강조

대규모 언어 모델 (LLMs)은 임상 상담 작업에서의 활용이 점점 더 고려되고 있으나, 대부분의 의료 평가는 정적이고, 단발적이며, 좁은 범위의 결과 중심에 머물러 있어 실제 의료 현장의 순차적이고 불확실하며 상호작용적인 특성을 반영하는 데 한계가 있습니다. 본 연구에서는 임상 역량의 8가지 차원에 걸쳐 LLM의 임상적 유용성을 평가하기 위해 EHR(전자 건강 기록)에 기반한 평가 프레임워크인 AIPatient Arena를 제안합니다. 이 프레임워크는 EHR 데이터를 환자별 지식 그래프 (knowledge graphs)로 통합하여 다회차(multi-turn) 의사-환자 상호작용을 가능하게 합니다. 우리는 437명의 환자로 구성된 주요 코호트와 119명 및 67명의 환자로 구성된 두 개의 분포 외 (out-of-distribution) 검증 코호트에 AIPatient Arena를 적용했습니다. 관찰 결과, LLM은 의료 면담 질문 기술 (QS; 평균 점수 4.43-4.99/5), 윤리적 및 전문적 행동 (ET; 4.38-4.93/5), 그리고 임상 설명의 명확성 및 투명성 (EX; 3.80-4.72/5) 측면에서 우수한 성능을 보였습니다. 정보 통합 (II; 3.19-4.21/5) 및 약물 안전성 및 정당성 (MS; 3.13-3.78/5) 측면에서의 성능은 보통 수준이었으나, 모호한 환자 응답 처리 (HR; 2.57-3.32/5), 정보 범위 (IC; 2.08-3.02/5), 그리고 진단 정확도 및 추론 (Dx; 2.63-3.55/5)에서는 지속적인 약점이 관찰되었습니다. 프로세스 기반 평가를 통해 반복적인 질문, 과거 병력 누락, 불확실성에 대한 부적절한 처리 등 반복적인 상호작용 실패가 드러났습니다. 더 풍부한 대화 문맥은 진단 추론을 개선했으나 치료 계획 수립에서의 이점은 제한적이었습니다. 이러한 결과는 최종 답변의 정확도만으로는 임상 준비도를 평가하기에 불충분함을 나타내며, 상담 과정 전반에 걸쳐 모델이 정보를 어떻게 수집, 해석 및 전달하는지를 평가하는 것의 중요성을 강조합니다. AIPatient Arena는 의료 LLM의 워크플로우 지향적 배포 전 평가를 위한 EHR 기반 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AIPatient Arena: 엔드투엔드 임상 상담 워크플로우에서 EHR에 기반한 대규모 언어 모델(LLM) 평가

요약

핵심 포인트

댓글