정신과 진단의 자동 ICD 분류: 전통적 NLP에서 대규모 언어 모델(LLM)까지
요약
본 연구는 정신과 진단 텍스트를 국제 질병 분류(ICD) 코드로 자동 매핑하기 위해 다양한 NLP 및 ML 기술을 비교 평가했습니다. 실험 결과, Transformer 기반 임베딩 모델이 전통적인 방식보다 우수한 성능을 보였으며, 특히 e5_large 모델이 미세 조정을 통해 가장 높은 F1 점수를 기록했습니다.
핵심 포인트
- 전통적인 BoW, TF-IDF 방식보다 Transformer 기반 임베딩이 의학적 맥락 파악에 훨씬 효과적임
- e5_large 모델이 엔드투엔드 미세 조정을 통해 0.866의 F1 점수로 최고 성능 달성
- LLM을 특정 임상 명명법에 적응시키는 것이 정신과 담론의 모호성과 데이터 불균형 문제를 해결하는 핵심임
- 스페인어 정신과 진단 데이터셋을 활용하여 모델의 실질적인 임상 적용 가능성을 검증함
정신 건강은 전 세계적인 우선순위가 되었으며, 이는 임상 진단 코딩 과정에서 막대한 행정적 부담을 초래하고 있습니다. 본 연구는 자연어 처리 (NLP) 및 머신러닝 (ML) 기술을 사용하여 자유 형식의 텍스트 설명을 국제 질병 분류 (ICD)에 매핑함으로써 정신과 진단 분석의 자동화를 제안합니다. 145,513개의 스페인어 정신과 설명으로 구성된 특화된 데이터셋을 활용하여, 전통적인 빈도 기반 모델 (BoW, TF-IDF)부터 e5_large, BioLORD, Llama-3-8B와 같은 최첨단 대규모 언어 모델 (LLMs)에 이르기까지 다양한 텍스트 표현 패러다임을 평가했습니다. 결과에 따르면, 트랜스포머 (Transformer) 기반 임베딩은 암시적인 의미론적 단서와 미묘한 의학 용어를 포착함으로써 전통적인 방법보다 일관되게 우수한 성능을 보였습니다. e5_large 모델은 엔드투엔드 (end-to-end) 미세 조정 (fine-tuning)을 통해 0.866의 $F1_{micro}$ 점수로 가장 높은 성능을 달성했습니다. 본 연구는 LLMs를 특정 임상 명명법에 적응시키는 것이 "롱테일 (long-tail)" 레이블 분포의 과제와 정신과 담론의 내재적 모호성을 극복하는 데 필수적임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기