온라인 환자 문의의 실행 가능한 분류를 위한 퓨샷 대규모 언어 모델 (Few-Shot LLMs) 연구

온라인 환자 문의는 종종 비정형적이고 불완전하며 전문가의 평가가 이루어지기 전에 작성되지만, 그럼에도 불구하고 적절한 수준의 임상 후속 조치로 라우팅(routing)되어야 합니다. 본 연구에서는 이를 자가 관리(self-care), 방문 예약(schedule-visit), 긴급 의료진 검토(urgent-clinician-review), 또는 응급실 의뢰(emergency-referral)라는 4개 클래스의 실행 가능한 분류(actionable triage) 작업으로 정의하고, 프롬프트 기반의 대규모 언어 모델(LLMs)이 라벨링 자원이 부족한 조건에서도 이러한 라우팅을 지원할 수 있는지 연구합니다. 공개 데이터셋인 HealthCareMagic-100K 코퍼스를 사용하여, 인간이 보정한 300개 사례의 골드 평가 세트(gold evaluation set), 자동 라벨링된 700개 사례의 실버 학습 세트(silver training set), 그리고 40개 사례의 퓨샷 풀(few-shot pool)을 구축했습니다. 우리는 실버 라벨로 학습된 TF-IDF (Term Frequency-Inverse Document Frequency) 및 BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining) 베이스라인을 0-shot, 4-shot, 12-shot 조건에서의 6개 프롬프트 기반 LLM과 각각 비교했습니다. 이에 따라 macro-$F_1$ 점수와 함께 응급 재현율(emergency-recall), 과소 분류율(under-triage rate), 중증 과소 분류율(severe under-triage rate)을 포함한 안전 인지 지표(safety-aware metrics)로 평가를 진행했습니다. 가장 강력한 성능을 보인 LLM(Claude Haiku 4.5, 12-shot)은 macro-$F_1$ 0.475를 기록하여, 점 추정치(point estimate) 기준으로 가장 우수한 지도 학습 베이스라인(BioBERT, 0.378)을 상회하였으며 신뢰 구간(confidence intervals)이 겹치는 결과를 보였습니다. 퓨샷 프롬프팅(Few-shot prompting)과 두 모델 간의 일치도(two-model agreement)는 라벨에 따라 상이한 방식으로 도움이 되었습니다. 즉, 자가 관리(self-care)에 대한 일치도는 신뢰할 수 있었으나, 긴급 의료진 검토(urgent-clinician-review)에 대한 일치도는 그렇지 않았습니다. 결론적으로 LLM은 분류 우선순위 지정 및 선택적 인간 검토를 지원할 수는 있지만, 자율적인 배포(autonomous deployment)에는 적합하지 않습니다.

Insights

온라인 환자 문의의 실행 가능한 분류를 위한 퓨샷 대규모 언어 모델 (Few-Shot LLMs) 연구

요약

핵심 포인트

댓글

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법