신뢰할 수 있는 임상 분류를 위한 도메인 적응형 소규모 언어 모델
요약
본 연구는 자유 텍스트 기반 문서에서 발생하는 높은 변동성으로 인해 어려움을 겪는 임상 분류(예: ESI 할당) 문제를 해결하기 위해 도메인 적응형 소규모 언어 모델(SLM)의 활용 가능성을 평가했습니다. 다양한 프롬프팅 기법을 비교한 결과, 간결한 요약 형태의 '임상 비니에트'가 가장 정확한 예측을 제공함을 확인했습니다. 특히, 전문가가 선별하고 실버 표준 데이터로 대규모 도메인 적응을 거친 Qwen2.5-7B와 같은 SLM이 기존의 기준선 모델이나 고급 LLM보다 우수한 성능과 안정성을 보여주었으며, 이는 사생활 보호 및 현장 적용에 매우 유용함을 시사합니다.
핵심 포인트
- 임상 분류는 텍스트 변동성으로 인해 오분류 위험이 높아 지속적인 도전 과제이다.
- SLM을 활용한 임상 의사결정 지원 도구 개발은 신뢰성과 사생활 보호 측면에서 큰 잠재력을 가진다.
- 프롬프트 엔지니어링 중 '임상 비니에트' 요약 형식이 가장 높은 예측 정확도를 보였다.
- 도메인 적응(Domain Adaptation)을 거친 SLM (예: Qwen2.5-7B)이 범용 LLM보다 임상 분류에서 더 우수하고 안정적인 성능을 입증했다.
정확하고 일관된 응급 중증도 지수 (ESI) 할당은 자유로운 텍스트 기반의 분류 문서를 통해 발생하는 높은 변동성으로 인해 오분류와 워크플로우 비효율성을 초래하는 지속적인 도전 과제입니다. 본 연구는 오픈소스 소규모 언어 모델 (SLM) 이 임상 분류를 위한 신뢰할 수 있고, 사생활을 보호하는 의사결정 지원 도구로 활용될 수 있는지 평가합니다. 우리는 다양한 프롬프팅 파이프라인을 통해 여러 SLM 을 체계적으로 비교한 결과, 분류 서사의 간결한 요약인 임상 비니에트 (clinical vignettes) 가 가장 정확한 예측을 제공함을 발견했습니다. Qwen2.5-7B 라는 SLM 은 정확도, 안정성, 계산 효율성의 가장 강력한 균형을 보여주었습니다. 전문가가 선별하고 실버 표준 (silver-standard) 이자 소아 분류 데이터를 사용한 대규모 도메인 적응을 통해, 미세 조정된 Qwen2.5-7B 모델은 모든 기준선 SLM 과 고급 전용 대형 언어 모델 (LLM, 예: GPT-4o) 을 능가하며 불일치와 임상적으로 중요한 오류를 현저히 감소시켰습니다. 이러한 결과는 기관별 특화 SLM 이 신뢰할 수 있고 사생활을 보호하는 ESI 의사결정 지원을 위한 실현 가능성을 강조하며, 더 복잡한 추론 전략보다 표적 미세 조정의 중요성을 부각시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기