본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:19

Clinical World Model과의 상호작용을 통한 LLM 내 환자 역학의 에이전트화 (Agentifying)

요약

본 논문은 중환자실(ICU) 패혈증 관리를 위해 임상 월드 모델로 증강된 LLM 에이전트인 SepsisAgent를 제안합니다. SepsisAgent는 후보 치료 중재에 따른 환자 반응을 시뮬레이션하는 '제안-시뮬레이션-정제' 워크플로우를 따릅니다. 이 에이전트는 3단계의 커리큘럼 학습(지도 미세 조정, 행동 복제, 강화학습)을 거쳐 MIMIC-IV 데이터셋에서 기존 방법론 대비 우수한 성능과 안전성을 입증했습니다.

핵심 포인트

  • SepsisAgent는 임상 월드 모델을 활용하여 치료 중재의 결과를 시뮬레이션하는 LLM 에이전트이다.
  • 에이전트는 '제안(propose) $\rightarrow$ 시뮬레이션(simulate) $\rightarrow$ 정제(refine)' 워크플로우를 통해 임상 결정을 내린다.
  • SepsisAgent는 3단계 커리큘럼 학습을 거쳐 환자 역학의 규칙성을 효과적으로 학습한다.
  • MIMIC-IV 데이터셋에서 SepsisAgent는 오프-폴리시 가치 및 안전성 측면에서 기존 RL/LLM 기반 모델들을 능가했다.

중환자실 (ICU)에서의 패혈증 (Sepsis) 관리는 급격하게 변화하는 환자의 생리적 상태에 따라 순차적인 치료 결정을 요구합니다. 대규모 언어 모델 (LLMs)은 광범위한 임상 지식을 인코딩하고 가이드라인에 따라 추론할 수 있지만, 행동 조건부 환자 역학 (action-conditioned patient dynamics)에 본질적으로 기반을 두고 있지는 않습니다. 우리는 패혈증 치료 권고를 위한 월드 모델 (world model) 증강 LLM 에이전트인 SepsisAgent를 소개합니다. SepsisAgent는 학습된 임상 월드 모델 (Clinical World Model)을 사용하여 후보 수액-혈관수축제 (fluid--vasopressor) 중재 하에서의 환자 반응을 시뮬레이션하며, 처방을 확정하기 전에 제안-시뮬레이션-정제 (propose--simulate--refine) 워크플로우를 따릅니다. 우리는 먼저 월드 모델에 대한 접근만으로는 LLM의 결정 성능이 일관되지 않음을 보여주며, 이는 에이전트 특화 학습의 필요성을 뒷받침합니다. 그 다음, 우리는 환자 역학 지도 미세 조정 (patient-dynamics supervised fine-tuning), 제안-시뮬레이션-정제 행동 복제 (propose--simulate--refine behavior cloning), 그리고 월드 모델 기반 에이전트 강화학습 (world-model-based agentic reinforcement learning)의 3단계 커리큘럼을 통해 SepsisAgent를 학습시킵니다. MIMIC-IV 패혈증 궤적 데이터에서 SepsisAgent는 오프-폴리시 가치 (off-policy value) 측면에서 모든 전통적인 강화학습 (RL) 및 LLM 기반 베이스라인을 능가하는 동시에, 가이드라인 준수 및 불안전한 행동 지표 하에서 최상의 안전 프로필을 달성했습니다. 추가 분석에 따르면, 임상 월드 모델과의 반복적인 상호작용은 에이전트가 환자 진화의 규칙성을 학습할 수 있게 하며, 이는 시뮬레이터 접근 권한이 제거된 상태에서도 유용하게 유지됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0