arXiv논문2026. 05. 04. 19:56

예측 불가능한 병원 재입원 예측을 위한 시간적 데이터 요구사항

요약

본 연구는 골절 및 무릎 인플란트 후 30일 재입원 예측에 필요한 최적의 역사적 데이터 시간 창을 결정하는 것을 목표로 합니다. 다양한 관찰 기간(수술 전 최대 3년)과 여러 임베딩 기법(BOW, TF-IDF부터 BERT, BiLSTM 등)을 사용하여 구조화된 EHR 기록과 비구조화된 임상 노트를 결합한 모델의 성능을 평가했습니다. 그 결과, 비구조화된 임상 노트는 수술 전 3~6개월의 비교적 짧은 시간 창에서 최대 예측 성능을 보인 반면, 구조화된 데이터는 시간이 지남에 따라 성능이 점진적으로 개선되었으나 특정 시점 이후에는 포화되는 경향을 보여, 모달리티별로 최적의 데이터 사용 전략이 다름을 입증했습니다.

핵심 포인트

재입원 예측 모델 구축 시, 모든 역사적 데이터를 사용하는 것이 항상 최적인 것은 아니며, 모달리티(임상 노트 vs. 구조화된 EHR)에 따라 최적의 시간 창이 다르다.
비구조화된 임상 노트는 수술 전 3~6개월과 같이 비교적 짧은 기간의 데이터가 최대 예측 성능을 달성하는 경향을 보였다.
구조화된 EHR 데이터는 시간이 지남에 따라 성능이 점진적으로 개선되지만, 일정 시점(예: 12개월) 이후에는 추가적인 데이터 증가로 인한 성능 향상이 미미해진다.
최적의 예측 모델 설계를 위해서는 사용되는 데이터 모달리티의 특성을 이해하고 해당 모달리티에 맞는 표적 시간 창을 설정하는 것이 중요하다.

전자 건강 기록 (EHR) 의 확산으로 인해 예측 모델 구축 시 가장 중요한 과제는 정확도를 최대화하는 최적의 역사적 데이터 시간 창을 결정하는 것입니다. 본 연구는 수술일로부터 3 년 전까지 다양한 관찰 창이 골절 및 무릎 인플란트 후 30 일 재입원 예측에 미치는 영향을 조사합니다. 데이터셋은 7,174 명의 환자에서 구조화된 encounter 기록 (400 만 건 이상) 과 비구조화된 임상 노트 (80,000 건) 를 포함합니다. 임상 노트의 의미를 추출하기 위해 우리는 신경망 기반이 아닌 (BOW, count BOW, TF IDF, LDA) 와 신경망 기반 인코더 (BERT, 1D CNN, BiLSTM, Average) 를 포함한 일련의 인코더를 사용했습니다. 이후 임상 노트만, 구조화된 데이터만, 그리고 두 모달리티의 조합을 사용하는 모델을 평가했습니다. 우리의 결과는 비구조화된 임상 노트의 최적 시간 창이 구조화된 데이터보다 유의미하게 짧다는 것을 보여줍니다. 수술 전 3 개월에서 6 개월 간의 노트를 사용하여 최대 예측 성능을 달성했습니다. 반면, 구조화된 데이터를 사용한 성능은 시간 창 길이가 증가함에 따라 개선되었지만, 12 개월 이후에는 엄격히 평평해졌습니다. 이러한 모달리티 특성의 시간적 패턴은 모델의 복잡성이나 인코더 유형에 관계없이 일관되어 있었습니다. 궁극적으로, 이러한 발견은 더 많은 역사적 데이터가 본질적으로 더 나은 머신 러닝 예측을 만든다는 일반적인 가정을 도전하며, 재입원 예측 모델을 최적화하기 위한 표적 시간 창 지침을 설정합니다.

AI 자동 생성 콘텐츠

원문 바로가기

예측 불가능한 병원 재입원 예측을 위한 시간적 데이터 요구사항

요약

핵심 포인트

댓글