MedGuards: 신뢰할 수 있는 의료 오류 탐지 및 수정을 위한 멀티 에이전트 시스템
요약
의료 분야 LLM의 오류를 탐지하고 수정하기 위한 멀티 에이전트 프레임워크인 MedGuards를 제안합니다. 인컨텍스트 학습과 신뢰도 기반 중재 메커니즘을 통해 추가 학습 없이도 높은 정확도와 해석 가능성을 제공합니다.
핵심 포인트
- 멀티 에이전트 인컨텍스트 학습 기반의 의료 오류 수정 프레임워크 제안
- 신뢰도 기반 중재 메커니즘을 통한 에이전트 간 의견 불일치 해결
- 새로운 평가 지표인 KPCS(Keyword-Prioritized Correction Score) 도입
- 추가 학습 없이 모델의 견고성, 적응성 및 해석 가능성 향상
대규모 언어 모델 (LLMs)이 의료 환경에 점점 더 많이 배치됨에 따라, 생성된 텍스트나 기존 텍스트 내의 정확한 오류 탐지 및 수정이 매우 중요해지고 있습니다. 아주 작은 실수라도 환자의 안전에 위험을 초래할 수 있기 때문입니다. 자동 점검 및 휴리스틱 기반 접근 방식을 포함한 기존의 오류 탐지 및 수정 방법들은 보지 못한 데이터셋(unseen datasets)에 대해 일반화가 잘 되지 않습니다. 본 논문에서는 의료 안전 가드레일(guardrail)로서 MedGuards를 제안합니다. 이는 의료 오류 탐지 및 수정을 멀티 에이전트 인컨텍스트 학습 (multi-agent in-context learning) 작업으로 취급하는 새로운 프레임워크입니다. 특화된 에이전트들이 오류를 각각 탐지, 위치 파악 및 수정하며, 신뢰도 기반 중재 (confidence-guided arbitration) 메커니즘이 추론 흔적 (reasoning traces)과 신뢰도 점수를 사용하여 의견 불일치를 해결합니다. 이러한 설계는 기본 LLM의 추가 학습을 요구하지 않으면서도 해석 가능성 (interpretability), 견고성 (robustness), 적응성 (adaptability)을 향상시킵니다. 또한, 우리는 참조 텍스트 내의 핵심 키워드가 올바르게 생성되었는지 고려하는 새로운 평가 지표인 키워드 우선순위 수정 점수 (Keyword-Prioritized Correction Score, KPCS)를 도입하여, 기존 지표보다 더 포괄적인 평가를 제공합니다. 임상 노트로 구성된 4개의 다국어 의료 데이터셋에 대한 실험을 통해, 제안된 프레임워크가 여러 지표와 모델에 걸쳐 상당한 개선을 보임을 입증했습니다. 우리의 목표는 실제 의료 애플리케이션에서 LLM의 더 안전한 배포를 가능하게 하는 것입니다. 재현성을 위해, 우리의 코드를 https://github.com/congboma/MedErrBench 에서 공개적으로 사용할 수 있도록 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기