arXiv논문2026. 06. 16. 12:09

구성적 추론 깊이가 임상 AI의 실패를 예측한다: 전자 건강 기록(EHR) 질의응답에서 Transformer의 구성성 한계와 일치하는 실증적

요약

LLM이 전자 건강 기록(EHR) 질의응답 시 추론 단계(hop count)가 늘어날수록 정확도가 급격히 하락하는 현상을 분석한 연구입니다. Transformer의 구성성 한계로 인해 복잡한 추론이 요구될수록 모델의 실패 가능성이 높아짐을 입증했습니다.

핵심 포인트

추론 단계(hop count)가 증가할수록 모델의 정확도는 단조 감소함
Claude와 GPT 시리즈 모두에서 동일한 성능 하락 패턴이 관찰됨
확장된 사고(Extended thinking)도 복잡한 추론 단계의 정확도 저하를 완전히 해결하지 못함
홉 수는 임상 AI 배포 시 위험도를 예측하는 핵심 지표로 활용 가능함

종합적인 정확도 벤치마크는 대규모 언어 모델(Large Language Models, LLM)이 전자 건강 기록(Electronic Health Record, EHR) 질의응답에서 실패하는 방식에 내재된 체계적인 구조를 은폐합니다. 즉, 더 많은 추론 단계(inferential steps)를 요구하는 질문일수록 불균형적으로 더 많은 오류를 발생시킵니다. Transformer의 구성성 한계(compositionality limits)에 관한 이론적 결과에 착안하여, 우리는 EHR로부터 임상 질문에 답하기 위해 필요한 별개의 추론 단계 수인 '사전 지정된 홉 수 분류 체계(pre-specified hop-count taxonomy)'를 모델 실패의 원칙적인 예측 인자로 도입합니다. 우리는 4개의 홉(hop) 수준에 걸쳐 임상의가 생성한 313개의 MedAlign EHR 질문-답변 쌍을 주석 처리하였으며, 모델 내 소거 연구(within-model ablation: claude-sonnet-4-6, zero-shot vs. extended thinking) 및 교차 아키텍처 복제 연구(cross-architecture replications: gpt-4o 및 gpt-5.4-2026-03-05, zero-shot)를 통해 301개의 질문을 평가했습니다. 두 공급업체와 두 세대의 OpenAI 모델(GPT-4 및 GPT-5)을 아우르는 세 모델 모두 홉 수(hop count)가 증가함에 따라 정확도가 단조 감소(monotone accuracy decline)하는 양상을 보였습니다: Claude Sonnet zero-shot은 30.6%(hop=1)에서 17.6%(hop=4)로 하락했습니다 (Cochran-Armitage z=-2.30, p=0.011; 홉당 OR 0.72, 95% CI [0.56, 0.92], p=0.008); GPT-4o는 이를 복제했습니다 (37.8%에서 14.7%로 하락; OR 0.58 [0.45, 0.75], p<0.001); 그리고 gpt-5.4-2026-03-05가 이를 확인했습니다 (37.8%에서 23.5%로 하락; OR 0.80 [0.66, 0.98], p=0.027). 사전 지정된 문맥 충분성 감사(context-sufficiency audit) 결과, 높은 홉의 질문들이 EHR 절단(truncation)에 의해 차별적으로 불이익을 받지 않음을 보여주었습니다 (hop 2-4에서 답변 가능성 93-95% vs. hop=1에서 79%). 따라서 이러한 하락은 구성적 추론(compositional reasoning)의 어려움을 반영합니다. 확장된 사고(Extended thinking)는 세 가지 추론 조건 전반에서 정확도-깊이 곡선(accuracy-depth curve)을 유의미하게 완만하게 만들지 못했으며, 사고 토큰(thinking-token) 사용량은 홉 수와 비례하여 증가했습니다 (r=0.31, p<0.0001). 이는 예측된 O(k) 계산 요구 사항과 일치합니다. 따라서 홉 수는 이론에 기반한, EHR 질의응답 시 대규모 언어 모델의 오류를 예측하는 교차 아키텍처 예측 인자이며, 임상 AI의 배포 위험 계층화(deployment risk stratification)에 직접적인 시사점을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

구성적 추론 깊이가 임상 AI의 실패를 예측한다: 전자 건강 기록(EHR) 질의응답에서 Transformer의 구성성 한계와 일치하는 실증적

요약

핵심 포인트

댓글