임상 추론 그래프: LLM 진단 추론의 구조적 평가를 통해 드러난 일관성 없는 역량
요약
LLM의 임상 진단 정확도와 실제 추론 과정의 구조적 일관성 사이의 괴리를 분석한 연구입니다. 임상 추론 그래프를 통해 모델이 유사한 사례에 대해 일관된 추론 패턴을 보이는지 평가한 결과, 정확도와 별개로 구조적 일관성이 부족함을 확인했습니다.
핵심 포인트
- 임상 추론 그래프를 통한 LLM의 구조적 추론 패턴 평가 방법론 제시
- 진단 정확도가 높더라도 임상적 유사 사례 간 추론 일관성은 낮음
- 정답 여부와 상관없이 모델 간 그래프 유사성이 유사하게 나타남
- 구조적 성찰 프롬프팅이 특징 분석은 늘리지만 사례 간 일관성은 개선 못 함
- LLM 진단 역량 평가를 위해 프로세스 수준의 평가 보완 필요
현대의 대규모 언어 모델 (LLMs)은 복잡한 임상 사례 벤치마크에서 60-70%의 진단 정확도에 도달하지만, 정확도만으로는 임상에 근거한 안정적인 추론과 패턴 매칭 (pattern matching)을 구분할 수 없습니다. 우리는 5개의 노드 유형과 7개의 엣지 유형을 가진 도메인 기반 온톨로지 (ontology)를 사용하여 자유 형식 텍사트(free-text) LLM 진단 추적(diagnostic traces)에서 추출한 구조화된 그래프 표현인 임상 추론 그래프 (clinical reasoning graphs)를 소개합니다. 우리는 이 파이프라인을 50개의 New England Journal of Medicine Clinicopathological Conference 사례와 세 가지 프롬프트 조건에 걸쳐 5개의 LLM으로부터 얻은 750개의 추적 데이터에 적용하여, 진단 추적(diagnostic traces)이 임상적으로 유사한 사례들에 대해 안정적인 구조적 추론 패턴, 즉 진단 스키마 (diagnostic schemas)를 보여주는지 테스트합니다. 우리는 이를 임상적으로 유사한 사례들 사이의 그래프 유사성 (graph similarity)이 임상적으로 유사하지 않은 사례들 사이의 유사성보다 높게 나타나는 것으로 구체화합니다. 15개의 모델-조건 비교 전반에 걸쳐, 클러스터 내 (within-cluster) 및 클러스터 간 (between-cluster) 복합 유사성은 거의 동일하며, 다중 테스트 교정 (multiple-testing correction)을 통과하는 비교 결과는 없습니다. 구성 요소 수준 (component-level) 분석 결과, 잔여 콘텐츠 신호는 스키마 규모 (schema scale)보다 훨씬 낮게 나타납니다. 그래프 유사성은 둘 다 정답을 맞힌 모델 쌍(0.488)과 둘 다 오답을 낸 모델 쌍(0.484) 사이에서도 거의 동일하게 나타나며, 이는 그래프 구조가 진단 정확도에 반영되지 않는 차원을 포착하고 있음을 시사합니다. 구조적 성찰 프롬프팅 (Structured reflection prompting)은 추적 내의 명시적인 판별 특징 분석 (discriminating-feature analysis)을 증가시키지만 (+33%), 사례 간 일관성 (cross-case consistency)을 높이지는 않습니다. 이러한 결과는 스키마 규모의 추론 일관성 없이도 진단 역량 (diagnostic competence)은 존재함을 보여주며, 최종 답변의 정확도는 프로세스 수준의 평가 (process-level evaluation)로 보완되어야 함을 나타냅니다. 우리는 LLM 임상 추론의 구조적 평가를 위한 리소스로서 온톨로지, 추출 파이프라인, 검증 프로토콜, 그리고 추출된 추론 그래프 및 유사성 아티팩트 (similarity artifacts)를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기