PORTER: 휴대 가능한 구조화된 EHR 파운데이션 모델을 위한 언어 기반 이벤트 표현
요약
PORTER은 고정된 어휘 집합 대신 언어 기반 설명을 사용하여 임상 이벤트를 표현하는 EHR 파운데이션 모델입니다. 수치 값 통합과 시계열 백본을 통해 새로운 개념에 대한 유연한 대응과 높은 전이 학습 성능을 보여줍니다.
핵심 포인트
- 고정 어휘 대신 언어 기반 설명을 사용하여 새로운 임상 개념 표현 가능
- 수치 경로를 통해 임상 데이터의 크기 민감도 향상
- 재학습 없이도 새로운 어휘 환경에서 높은 성능 유지(AUROC 97.1% 회복)
- 기존 방식 대비 329배 낮은 계산 비용으로 효율적인 학습 달성
대부분의 전자 건강 기록 (EHR) 파운데이션 모델 (foundation models)은 임상 이벤트를 고정된 어휘 집합 (fixed vocabulary)으로부터의 이산적 이벤트 토큰 (discrete event tokens)으로 인코딩하며, 따라서 수치 값과 같이 보지 못한 개념이나 개념 및 속성의 새로운 조합을 포함하는 이벤트를 직접적으로 표현할 수 없습니다. 이는 기관 간, 심지어 동일 기관 내의 배포 파이프라인 간의 전이 (transfer)를 제한합니다. 우리는 이벤트 표현을 이러한 고정된 어휘 집합으로부터 분리하는 언어 기반 (language-grounded) 구조화된 EHR 파운데이션 모델인 PORTER를 소개합니다. PORTER는 동결된 텍스트 인코더 (frozen text encoder)를 사용하여 설명 (descriptions)을 통해 이벤트를 표현하고, 전용 경로 (dedicated pathway)를 통해 수치 값을 통합하며, 자기회귀적으로 사전 학습된 시계열 백본 (autoregressively pretrained temporal backbone)을 통해 환자 타임라인에 따른 임상 역학 (clinical dynamics)을 학습합니다. 소아 병원의 74개 임상 예측 작업에서, PORTER는 동일한 시계열 백본과 사전 학습 목표를 가진 고정 어휘 모델의 평균 AUROC와 일치했습니다. 사전 학습 중에 보지 못한 이벤트 설명을 사용하여 동일한 환자 타임라인을 렌더링했을 때, PORTER는 재학습이나 어휘 매핑 (vocabulary mapping) 없이도 전이되었으며, 대상 어휘에서 직접 학습된 모델의 평균 AUROC의 97.1%를 회복했습니다. MIMIC으로 전이되었을 때, PORTER는 토큰이 보이지 않아 이벤트의 69%를 놓친 고정 어휘 모델보다 우수한 성능을 보였습니다. 메커니즘 분석 (Mechanistic analyses) 결과, 어휘 간 전이는 텍스트 인코더의 규모보다는 환자 수준의 표현 기하학 (representation geometry)의 보존을 추적하는 것으로 나타났으며, 수치 경로 (numeric pathway)는 임상 개념의 정체성을 방해하지 않으면서 크기 (magnitude)에 대한 민감도를 향상시켰습니다. 또한 PORTER는 작업 특화형 텍스트 직렬화 (text serialization) 비교 대상보다 329배 낮은 분할 계산 비용 (amortized compute)으로 더 높은 AUROC를 달성했습니다. PORTER는 도메인 내 성능을 유지하면서 어휘 조화 (vocabulary harmonization)의 필요성을 줄이고 효율적인 교차 작업 재사용을 가능하게 하는, 어휘 독립적인 EHR 파운데이션 모델을 향한 단계입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기