SHIELD: 기업 규모 데아이덴티피케이션을 위한 다양한 임상 노트 데이터셋 및 압축된 소규모 언어 모델
요약
본 논문은 기존 임상 텍스트 데아이덴티피케이션(de-identification) 벤치마크의 한계를 극복하기 위해 구축된 SHIELD 데이터셋과 이를 기반으로 압축된 소규모 언어 모델(SLM)을 소개합니다. SHIELD는 다양한 범주의 노트와 골드 스탠더드 PHI를 포함하며, 인간 참여 과정을 거쳐 높은 다양성을 확보했습니다. 연구진은 이 데이터를 사용하여 여러 LLM의 성능 상한선을 설정하고, 이를 로컬 배포가 가능한 SLM으로 압축하여 표준 워크스테이션 환경에서 높은 정밀도와 회귀율을 달성하는 모델을 개발했습니다.
핵심 포인트
- SHIELD 데이터셋은 기존 벤치마크보다 현대적이고 다양한 임상 노트 데이터를 제공하며, 인간-인-루프 심판 과정을 거쳐 구축되었습니다.
- 연구팀은 대규모 언어 모델(LLM)의 성능을 활용하여 로컬 배포가 가능한 소규모 언어 모델(SLM)로 압축하는 방법을 제시했습니다.
- 최종 개발된 SLM은 구조화된 PHI 카테고리에서 미크로-평균 정밀도 0.88, 회귀율 0.86을 달성하여 높은 성능을 입증했습니다.
- 모델의 크로스 데이터셋 평가는 모델이 광범위한 커버리지와 전문적인 구조화된 PHI에 모두 잘 일반화될 수 있음을 보여주었습니다.
임상 텍스트의 데아이덴티피케이션 (de-identification) 은 전자 건강 기록 (EHRs) 의 2 차적 사용을 위해 여전히 필수적이지만, 공개 벤치마크인 i2b2 2006/2014 는 10 년 이상 된 것이며 현대적인 내러티브의 의미론적 및 인구통계학적 다양성을 부족합니다. 대규모 언어 모델 (LLMs) 은 최첨단 제로샷 추출을 달성하지만, 기업 배포는 계산 비용과 클라우드 API 에서 보호된 건강 정보 (PHI) 를 제한하는 거버넌스에 의해 방해받습니다. 우리는 SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification) 를 소개합니다. 이는 9 가지 범주에 걸쳐 1,394 개의 노트와 10,505 개의 골드 스탠더드 PHI 스페인을 가진 다양한 데이터셋으로, 인간 - 인 - 루프 심판 (human-in-the-loop adjudication) 을 포함한 세트 커버 다양성 샘플링을 통해 구축되었습니다. 우리는 4 개의 LLM (2 개는 독점, 2 개는 오픈 웨이트) 을 평가하여 성능 상한선을 설정하고, 이를 로컬 배포 가능한 소규모 언어 모델 (SLMs) 으로 압축합니다. Frechet Text Distance 와 Jensen-Shannon Divergence 를 사용한 분포 분석은 SHIELD 가 기존 벤치마크와 달리 생체 의학 임베딩 및 어휘 공간의 다른 영역을 차지함을 확인합니다. 우리 최고의 압축된 모델은 구조화된 PHI 카테고리 (DATE, DOCTOR, ID, PATIENT, PHONE) 에서 교사를 일치시키고, 표준 워크스테이션 하드웨어에서 미크로 - 평균 스페인 수준 정밀도 0.88 과 회귀 0.86 을 달성합니다. 크로스 데이터셋 평가는 다양성 훈련된 모델이 보편적 구조화된 PHI 에 잘 일반화됨을 보여주며, 기관 특화 엔티티는 전송하기 어려움으로 나타났습니다. 이는 광범위 커버리지 모델을 고 부피 노트를 위한 전문 모델과 결합하는 최적의 배포를 제안합니다. 우리는 SHIELD 데이터셋과 압축된 DeBERTa v3 모델을 공개적으로 게시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기