arXiv논문2026. 06. 23. 11:07

고위험 추론을 위한 멀티 에이전트 감사 프레임워크: 임상 정신 건강 선별에서의 평가 및 해석 가능성

요약

임상 정신 건강 선별과 같은 고위험 추론을 위해 환각을 줄이고 해석 가능성을 높인 멀티 에이전트 감사 프레임워크를 제안합니다. LangChain 기반의 모듈형 워크플로우를 통해 인지, RAG, CoT, 감사 단계를 거치며 단일 모델 대비 높은 정확도와 신뢰성을 입증했습니다.

핵심 포인트

멀티 에이전트 협업을 통한 고위험 추론의 환각 및 해석 가능성 문제 해결
LangChain 기반의 인지, RAG, CoT, 감사 단계로 구성된 모듈형 아키텍처
DAIC-WOZ 데이터셋 실험 결과, PHQ-8 예측 MAE를 5.35에서 5.02로 개선
에이전트 간 검증 추적을 통해 추론 드리프트를 완화하고 진단 근거 제공

고위험 (High-stakes) 추론 작업은 투명하고 검증 가능한 워크플로우를 필요로 하지만, 기존의 단일 모델 거대 언어 모델 (LLMs)은 제로샷 (zero-shot) 패러다임 하에서 환각 (hallucination) 및 낮은 해석 가능성 (interpretability) 문제로 어려움을 겪는 경우가 많습니다. 이러한 일반적인 AI 과제를 해결하기 위해, 우리는 협력적이고 다단계적인 검증 과정을 시뮬레이션하는 멀티 에이전트 감사 프레임워크 (Multi-Agent Audit Framework)를 제안합니다. 우리는 모듈형 LangChain 워크플로우를 사용하여 민감한 영역인 임상 정신 건강 선별 분야에서 이 아키텍처를 경험적으로 검증합니다. 우리의 프레임워크는 추론 과정을 인지 에이전트 (Perception Agent), 지식 검색 증강 생성 (RAG), 사고 사슬 (CoT) 임상 추론, 그리고 비판적인 감사 (Audit) 검증 단계로 분해합니다. 우리는 로컬에 배포된 오픈 소스 모델을 사용하여 DAIC-WOZ 데이터셋에서 이 프레임워크를 평가했습니다. 실험 결과, 우리의 멀티 에이전트 파이프라인은 단일 에이전트 베이스라인보다 성능이 크게 뛰어났으며, PHQ-8 우울증 심각도 예측에 대한 평균 절대 오차 (MAE)를 5.35에서 5.02로 감소시켰습니다. 에이전트 간 검증 추적 (cross-agent validation traces)을 노출함으로써, 이 프레임워크는 추론 드리프트 (reasoning drift)를 완화하고 매우 해석 가능한 진단 근거를 제공하며, 고립된 모델 스케일링을 넘어 신뢰할 수 있는 AI 지원 의사결정 지원을 위한 일반화 가능한 패러다임을 제시합니다. 우리는 재현성을 위해 데이터와 코드를 GitHub에 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

고위험 추론을 위한 멀티 에이전트 감사 프레임워크: 임상 정신 건강 선별에서의 평가 및 해석 가능성

요약

핵심 포인트

댓글