CLExEval: LLM의 임상적 추론에 대한 정성적 평가를 위한 인간 참여형 (Human-in-the-Loop) 프레임워크
요약
LLM의 임상적 추론을 신뢰성 있게 평가하기 위한 인간 참여형 프레임워크인 CLExEval을 제안합니다. 연구 결과, 모델의 장황함 편향, 숨겨진 지식 역설, 추론-출력 불일치 등 주요 실패 패턴을 식별했습니다. 또한 자동화된 평가 방식이 임상적 오류를 과대평가할 위험이 있음을 경고합니다.
핵심 포인트
- CLExEval: 인간 참여형(Human-in-the-loop) 임상 추론 평가 프레임워크
- 장황함 편향 및 숨겨진 지식 역설 등 LLM의 임상적 실패 패턴 식별
- 추론 과정과 최종 답변이 일치하지 않는 불일치 현상 발견
- LLM-as-a-Judge 방식의 임상 평가 신뢰성 한계 지적
대규모 언어 모델 (LLMs)은 많은 의료 벤치마크에서 강력한 결과를 달성하지만, 이들의 임상적 추론 (clinical reasoning)을 신뢰성 있게 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 핵심적인 위험 요소는 '평가 환상 (evaluation illusion)'입니다. 즉, 최종 진단이 틀렸음에도 불구하고 유창하고 잘 구조화된 설명이 임상적으로 설득력 있게 보일 수 있다는 점입니다. 우리는 점진적 정보 마스킹 (progressive information masking) 하에서 LLM의 임상적 추론을 평가하기 위한 인간 참여형 (human-in-the-loop) 프레임워크인 CLExEval을 소개합니다. CLExEval은 5,600개의 전문의 주석 (expert-physician annotations)과 40개의 희귀 진단 사례에서 도출된 200개의 임상 추론 흔적 (clinical reasoning traces)을 결합합니다. 우리의 분석은 세 가지 반복되는 실패 패턴을 식별합니다: (i) 정보 부족 상황에서 GPT-4o-mini의 진단 정확도가 95.0%에서 32.5%로 떨어지는 장황함 편향 (verbosity bias); (ii) 전문 모델이 92.5%의 최대 진단 잠재력에 도달하지만 장황한 문맥에서는 해당 지식을 안정적으로 인출하지 못하는 숨겨진 지식 역설 (hidden knowledge paradox); (iii) 추론 흔적에는 올바른 진단이 나타나지만 최종 답변에는 반영되지 않는 68.6%의 추론-출력 불일치 (reasoning-to-output mismatch)입니다. 우리는 더 나아가 인간이 검증한 실패 세트 (n = 142)를 통해 LLM-as-a-Judge 패러다임을 평가합니다. GPT-4o-mini는 임상적으로 부정확한 출력의 47.9%를 승인한 반면, HuatuoGPT-o1은 유효하게 점수가 매겨진 모든 실패 사례를 승인했으며 긍정적인 자기 선호 편향 (self-preference bias)을 보였습니다. 이러한 결과는 전문가에 기반한 검증 없이는 단독 자동화된 임상 평가가 임상적 신뢰성을 상당히 과대평가할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기