CuraView: GraphRAG 기반 지식 검증으로 강화된 의료 환각 탐지 다중 에이전트 프레임워크

방출 요약서 (discharge summaries) 는 긴 전자 건강 기록 (EHRs) 에서 중요한 정보를 추출해야 하는데, 수동으로 수행할 경우 노동 집약적입니다. 대형 언어 모델 (LLMs) 은 생성 효율성을 개선할 수 있지만, 원본 기록과 모순되는 진술을 생성하는 충실성 환각 (faithfulness hallucinations) 에 취약하여 환자 안전에 직접적인 위험을 초래합니다. 이를 해결하기 위해 우리는 방출 요약서에서 충실성 환각의 문장 수준 탐지와 증거 기반 설명을 위한 다중 에이전트 프레임워크인 CuraView 를 제시합니다. CuraView 는 환자 수준의 EHRs 에서 GraphRAG 기반 지식 그래프를 구축하고, 문장 수준 증거 검색 및 분류 (강력한 지원부터 직접적인 모순까지 4 개의 증거 등급 E1-E4) 을 포함하는 폐쇄형 생성-탐지 파이프라인을 구현하여 구조화되고 해석 가능한 증거 체인을 생성합니다. 우리는 Discharge-Me 벤치마크의 250 명의 환자 중 50 명을 테스트에 제외하고 CuraView 를 평가했습니다. our fine-tuned Qwen3-14B 탐지 모델은 안전 임계값인 E4 지표에서 F1 이 0.831 (召回率 90.9%, 정밀도 76.5%) 을 달성하고, E3+E4 에서 F1 이 0.823 으로 기본 모델 대비 50.0% 의 상대적 개선율을 보이며 RAGTruth 스타일 및 QAGS 스타일 베이스라인을 상회합니다. 이러한 결과는 증거 체인 기반 그래프 검색 검증이 임상 문서의 사실적 신뢰성을 크게 향상시키며, 동시에 후속 모델 훈련 및 정제에 재사용 가능한 주석 데이터셋을 생성함을 보여줍니다.

Insights

CuraView: GraphRAG 기반 지식 검증으로 강화된 의료 환각 탐지 다중 에이전트 프레임워크

요약

핵심 포인트

댓글

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

LangGraph의 세 가지 재작성: 프로덕션 환경에서 상태 유지 에이전트(Stateful Agents)의 체크포인팅(Checkpointing)

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트