arXiv논문2026. 06. 18. 12:06

신탁(Oracle)이 아닌 인터페이스로서의 언어 모델: 소아 충수염을 위한 하이브리드 LLM-ML 시스템

요약

LLM의 환각 현상과 구조화된 ML 모델의 데이터 입력 한계를 극복하기 위해, LLM을 인터페이스로 활용하는 하이브리드 시스템 ClaMPAPP을 제안합니다. LLM이 비정형 텍스트에서 임상 특징을 추출하면 XGBoost가 진단을 수행하여 높은 정확도와 안정성을 확보했습니다.

핵심 포인트

LLM을 직접적인 진단 엔진이 아닌 데이터 추출 인터페이스로 활용
비정형 임상 기록을 구조화된 데이터로 변환하여 ML 모델에 전달
엔드 투 엔드 LLM 방식보다 높은 진단 성능 및 안정성 입증
충수염 미검출 사례를 최소화하여 임상적 안전성 강화

대규모 언어 모델 (LLMs)은 자유 형식의 텍스트(free-text) 기록을 해석함으로써 임상 의사 결정 지원을 더욱 용이하게 만들 수 있지만, 프롬프트에 대한 민감도, 정보 순서, 그리고 그럴듯하지만 틀린 출력(plausible but incorrect outputs) 등의 문제로 인해 진단 엔진으로서 직접 사용하는 데에는 한계가 있습니다. 구조화된 머신러닝 (Machine-learning) 모델은 더 안정적인 위험 예측을 제공하지만, 서술형 임상 워크플로우와 통합하기 어려운 정형 데이터(tabular inputs)를 필요로 합니다. 우리는 LLM을 최종 결정권자가 아닌 인터페이스로 사용하는 하이브리드 시스템인 ClaMPAPP (Clinical Language-assisted Machine-learning Pipeline for Appendicitis)를 제시합니다. ClaMPAPP은 노트 형태의 서술문에서 스키마 제약이 있는 임상 특징(clinical features)을 추출하고, 결정론적인 타당성 검사(deterministic plausibility checks)를 적용하며, 검증된 특징을 임상, 실험실 및 초음파 변수로 학습된 XGBoost 분류기에 전달합니다. 우리는 독일 병원의 두 가지 독립적인 소아 충수염 코호트(cohorts)를 대상으로 ClaMPAPP을 평가하였으며, 오픈 소스 및 독점 모델을 포함한 엔드 투 엔드 (end-to-end) LLM 베이스라인과 비교하였습니다. 자유 형식의 텍스트 입력을 테스트하면서 정답(ground truth)을 보존하기 위해, 템플릿 렌더링과 제약된 LLM 재작성을 통해 구조화된 전자 건강 기록 (electronic health records)으로부터 서술문을 생성하였으며, 위치적 견고성 (positional robustness)을 평가하기 위해 문장 순서 치환을 추가하였습니다. ClaMPAPP은 내부 및 외부 검증 모두에서 가장 강력한 전반적 진단 성능을 달성하였으며, 급성 분류(acute triage)에서 핵심적인 안전 문제인 충수염 미검출 사례를 최소화했습니다. 엔드 투 엔드 LLM은 불안정한 민감도-특이도 (sensitivity-specificity) 트레이드오프를 보였으며, 서술문 재정렬 시 성능 저하가 더 크게 나타났습니다. 이러한 결과는 자연어 사용성과 예측 추론을 분리하여 임상 의사 결정 지원을 위한 더 감사 가능한 (auditable) 경로를 제공하는 '인터페이스로서의 LLM, 예측기로서의 ML' 설계를 지지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신탁(Oracle)이 아닌 인터페이스로서의 언어 모델: 소아 충수염을 위한 하이브리드 LLM-ML 시스템

요약

핵심 포인트

댓글