arXiv논문2026. 06. 18. 11:15

LLM은 의사를 보조할 준비가 되었는가? 상호작용적 의사-환자-EHR 보조를 위한 PhysAssistBench

요약

의료용 LLM의 실질적인 의사 보조 능력을 평가하기 위한 새로운 벤치마크인 PhysAssistBench를 소개합니다. 이 벤치마크는 환자, 의사, EHR 시스템 간의 복잡한 상호작용을 시뮬레이션하여 모델의 통합적인 임상 역량을 테스트합니다.

핵심 포인트

의료 LLM의 고립된 능력 평가를 넘어선 통합적 상호작용 평가 필요성 제기
MIMIC-IV 데이터를 기반으로 한 에이전트형 환자 시나리오 구축
의사가 검증한 1,296개의 다회차 임상 상호작용 데이터셋 제공
현재 주요 LLM들은 복합적인 임상 환경에서 여전히 신뢰도가 낮음

의료용 LLM(Large Language Models)의 가장 타당한 단기적 역할은 의사를 대체하는 것이 아니라 보조하는 것이지만, 현재의 평가 방식은 임상 지식, EHR(Electronic Health Record, 전자 건강 기록) 시스템 상호작용, 또는 환자 커뮤니케이션과 같이 고립된 능력만을 테스트하는 경우가 많습니다. 의사 보조를 위해서는 의사가 불충분하게 명시된 요청을 하고, 환자가 모호하게 증상을 설명하며, EHR 시스템이 정밀한 도구 사용을 요구하는 동일한 상호작용 내에서 이러한 능력들을 조정하는 것이 필요합니다. 우리는 상호작용적 의사-환자-EHR 보조를 위한 벤치마크인 PhysAssistBench를 소개합니다. 실제 MIMIC-IV 사례를 바탕으로 구축된 PhysAssistBench는 확장 가능한 파이프라인을 사용하여 에이전트형 환자(agentic patients)를 구축합니다. 이는 임상적 사실성을 유지하면서 정적인 EHR 기록을 다회차(multi-turn) 임상 시나리오로 전환하는, 상호작용이 가능하고 기록에 근거한 에이전트입니다. PhysAssistBench는 수동으로 검토되고 의사가 검증한 1,296개의 상호작용 턴(turns)으로 구성된 큐레이션된 이중 언어 평가 세트를 제공합니다. 주요 LLM을 대상으로 한 실험 결과, 현재의 모델들은 이러한 환경에서 여전히 신뢰할 수 없는 것으로 나타났습니다. 이는 임상용 LLM의 핵심적인 병목 현상을 드러냅니다. 즉, 신뢰할 수 있는 보조를 위해서는 특정 분야의 고립된 향상이 아니라 지식, 커뮤니케이션, 그리고 시스템 전반에 걸친 조정이 필요합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM은 의사를 보조할 준비가 되었는가? 상호작용적 의사-환자-EHR 보조를 위한 PhysAssistBench

요약

핵심 포인트

댓글