arXiv논문2026. 06. 17. 12:58

의료 애플리케이션에서의 조기 진단 인계 및 침묵하는 환각 완화를 위한 에이전트 기반 AI (Agentic AI) 프레임워크

요약

의료 AI의 조기 진단 인계와 침묵하는 환각 문제를 해결하기 위한 멀티 에이전트 프레임워크를 제안합니다. 뉴로-심볼릭 상태 추적과 인식론적 불확실성 정량화 메커니즘을 통해 진단의 정확도와 안전성을 높였습니다.

핵심 포인트

OLDCARTS 프로토콜을 강제하는 뉴로-심볼릭 상태 추적 게이트 도입
의미론적 엔트로피를 활용한 인식론적 불확실성 정량화(UQ) 적용
Llama-3.1-70b 기반 시뮬레이션 결과 진단 정밀도 49.3% 달성
구조화된 정보 수집이 진단 불확실성 감소와 상관관계가 있음을 입증

최근 거대 언어 모델 (Large Language Models, LLMs) 및 멀티 에이전트 시스템의 발전은 의료적 추론에 유망한 에이전트 기반 AI (Agentic AI)의 부상을 이끌었습니다. 그러나 개방형 대화형 에이전트는 두 가지 치명적인 실패 모드, 즉 조기 진단 인계 (premature diagnostic handoff)와 환자에게 도달하기 전 탐지되지 않을 수 있는 침묵하는 임상적 환각 (silent clinical hallucinations)에 여전히 취약합니다. 본 연구에서는 "판단자로서의 LLM (LLM-as-a-judge)" 라우팅을 결정론적 오케스트레이션 제약 조건 (deterministic orchestration constraints)으로 대체함으로써 두 가지 문제를 모두 해결하는 멀티 에이전트 프레임워크를 제안합니다. 이 프레임워크는 두 가지 안전 메커니즘을 통합합니다. 첫째, 뉴로-심볼릭 상태 추적 게이트 (neuro-symbolic state-tracking gate)는 필요한 모든 차원이 수집될 때까지 진단 전환을 차단함으로써 OLDCARTS 임상 프로토콜 (Onset, Location, Duration, Character, Aggravating/Alleviating factors, Radiation, Timing, Severity)의 완전성을 강제합니다. 둘째, 인식론적 불확실성 정량화 (epistemic uncertainty quantification, UQ) 게이트는 K=5개의 독립적인 진단 샘플에 대해 의미론적 엔트로피 (semantic entropy, H)를 계산하여 전달 전 발산하는 출력을 식별하고 차단합니다. 우리는 llama-3.1-70b-instruct 모델로 구동되는 시뮬레이션된 환자 에이전트를 사용하여 150개의 테스트 케이스에 대해 시스템을 평가합니다. 전체 아키텍처는 49.3%의 진단 정밀도 (diagnostic precision)를 달성하였으며, 이는 제약이 없는 베이스라인 대비 11.3 퍼센트 포인트의 절대적 향상을 나타냅니다. 또한, OLDCARTS 완전성 (σ)과 의미론적 엔트로피 (H) 사이에 통계적으로 유의미한 음의 상관관계 (r = -0.181, p < 0.05)가 관찰되었으며, 이는 구조화된 정보 수집이 진단 불확실성 감소와 연관되어 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

의료 애플리케이션에서의 조기 진단 인계 및 침묵하는 환각 완화를 위한 에이전트 기반 AI (Agentic AI) 프레임워크

요약

핵심 포인트

댓글