본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:03

온라인 환자 문의의 실행 가능한 분류를 위한 퓨샷 대규모 언어 모델 (Few-Shot LLMs) 연구

요약

본 연구는 비정형적인 온라인 환자 문의를 4가지 임상 후속 조치 단계로 분류하기 위해 퓨샷(Few-shot) LLM의 성능을 분석했습니다. 실험 결과, Claude Haiku 4.5(12-shot)가 기존 BioBERT 베이스라인을 상회하는 성능을 보였으나, 클래스별 일치도 차이와 안전성 문제를 고려할 때 LLM을 자율적으로 배포하기보다는 분류 우선순위 지정 및 인간 검토 지원 용도로 활용할 것을 권장합니다.

핵심 포인트

  • 온라인 환자 문의를 자가 관리, 방문 예약, 긴급 검토, 응급실 의뢰의 4개 클래스로 분류하는 작업 수행
  • Claude Haiku 4.5(12-shot) 모델이 macro-$F_1$ 0.475를 기록하며 BioBERT 베이스라인(0.378)보다 우수한 성능을 보임
  • 응급 재현율 및 과소 분류율 등 안전 인지 지표(safety-aware metrics)를 통한 다각도 평가 진행
  • LLM은 분류 지원 및 인간 검토 보조에는 유용하나, 완전한 자율적 배포에는 한계가 있음

온라인 환자 문의는 종종 비정형적이고 불완전하며 전문가의 평가가 이루어지기 전에 작성되지만, 그럼에도 불구하고 적절한 수준의 임상 후속 조치로 라우팅(routing)되어야 합니다. 본 연구에서는 이를 자가 관리(self-care), 방문 예약(schedule-visit), 긴급 의료진 검토(urgent-clinician-review), 또는 응급실 의뢰(emergency-referral)라는 4개 클래스의 실행 가능한 분류(actionable triage) 작업으로 정의하고, 프롬프트 기반의 대규모 언어 모델(LLMs)이 라벨링 자원이 부족한 조건에서도 이러한 라우팅을 지원할 수 있는지 연구합니다. 공개 데이터셋인 HealthCareMagic-100K 코퍼스를 사용하여, 인간이 보정한 300개 사례의 골드 평가 세트(gold evaluation set), 자동 라벨링된 700개 사례의 실버 학습 세트(silver training set), 그리고 40개 사례의 퓨샷 풀(few-shot pool)을 구축했습니다. 우리는 실버 라벨로 학습된 TF-IDF (Term Frequency-Inverse Document Frequency) 및 BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining) 베이스라인을 0-shot, 4-shot, 12-shot 조건에서의 6개 프롬프트 기반 LLM과 각각 비교했습니다. 이에 따라 macro-$F_1$ 점수와 함께 응급 재현율(emergency-recall), 과소 분류율(under-triage rate), 중증 과소 분류율(severe under-triage rate)을 포함한 안전 인지 지표(safety-aware metrics)로 평가를 진행했습니다. 가장 강력한 성능을 보인 LLM(Claude Haiku 4.5, 12-shot)은 macro-$F_1$ 0.475를 기록하여, 점 추정치(point estimate) 기준으로 가장 우수한 지도 학습 베이스라인(BioBERT, 0.378)을 상회하였으며 신뢰 구간(confidence intervals)이 겹치는 결과를 보였습니다. 퓨샷 프롬프팅(Few-shot prompting)과 두 모델 간의 일치도(two-model agreement)는 라벨에 따라 상이한 방식으로 도움이 되었습니다. 즉, 자가 관리(self-care)에 대한 일치도는 신뢰할 수 있었으나, 긴급 의료진 검토(urgent-clinician-review)에 대한 일치도는 그렇지 않았습니다. 결론적으로 LLM은 분류 우선순위 지정 및 선택적 인간 검토를 지원할 수는 있지만, 자율적인 배포(autonomous deployment)에는 적합하지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0