arXiv논문2026. 04. 27. 19:12

FeatEHR-LLM: 전자의무기록 (EHR) 를 위한 특징 공학에 대규모 언어 모델 활용

요약

본 논문은 전자의무기록(EHR)과 같은 복잡한 임상 시계열 데이터에서 특징 공학의 어려움을 해결하기 위해 FeatEHR-LLM이라는 프레임워크를 제안합니다. 이 프레임워크는 대규모 언어 모델(LLMs)을 활용하여 불규칙하게 샘플링된 EHR 데이터로부터 임상적으로 유의미한 표형 특징을 생성하는 것을 목표로 합니다. LLM은 원본 환자 기록 대신 스키마와 작업 설명에만 작동하며, 도구 증강 생성을 통해 전문적인 특징 추출 코드를 생성함으로써 시간적 불균일성과 정보 희소성 문제를 효과적으로 처리합니다.

핵심 포인트

FeatEHR-LLM은 EHR 데이터의 복잡한 특징 공학 문제를 해결하기 위해 LLMs를 활용하는 새로운 프레임워크입니다.
이 프레임워크는 원본 환자 기록에 직접 접근하지 않고, 데이터셋 스키마와 작업 설명을 기반으로 작동하여 개인 정보 보호를 유지합니다.
도구 증강 생성 메커니즘을 통해 불규칙한 시간 데이터를 쿼리하는 실행 가능한 특징 추출 코드를 자동으로 생성할 수 있습니다.
ICU 데이터셋에서 수행된 8가지 임상 예측 작업 중 7가지에서 최고 성능을 달성하며, 기존 방법 대비 최대 6%p의 개선을 입증했습니다.

전자의무기록 (Electronic Health Records, EHR) 에 대한 특징 공학 (feature engineering) 은 임상 시계열 데이터에 내재된 불규칙한 관측 간격, 변수한 측정 빈도, 그리고 구조적 희소성으로 인해 복잡해집니다. 기존 자동화 방법은 임상 도메인 인식을 결여하거나 청결하고 규칙적으로 샘플링된 입력을 가정하여 실제 세계 EHR 데이터에 대한 적용성을 제한합니다. 우리는 불규칙하게 샘플링된 EHR 시계열로부터 임상적으로 유의미한 표형 특징 (tabular features) 을 생성하기 위해 대규모 언어 모델 (Large Language Models, LLMs) 을 활용하는 extbf{FeatEHR-LLM} 프레임워크를 제시합니다. 환자 프라이버시 노출을 제한하기 위해 LLM 은 원본 환자 기록 대신 데이터셋 스키마와 작업 설명에만 작동합니다. 도구 증강 생성 메커니즘 (tool-augmented generation mechanism) 은 불규칙한 시간 데이터를 쿼리하는 전문 루틴으로 LLM 을 무장시켜, 불균등한 관측 패턴과 정보성 희소성을 명시적으로 처리하는 실행 가능한 특징 추출 코드를 생성할 수 있게 합니다. FeatEHR-LLM 은 반복적 검증 인 루프 (validation-in-the-loop) 파이프라인을 통해 단변량 및 다변량 특징 생성을 모두 지원합니다. 네 개의 ICU 데이터셋에서 수행된 8 가지 임상 예측 작업에 대한 평가 결과, 우리 프레임워크는 8 가지 작업 중 7 가지에서 가장 높은 평균 AUROC 를 달성했으며, 강력한 베이스라인 대비 최대 6 퍼센트 포인트의 개선을 보였습니다. 코드는 github.com/hojjatkarami/FeatEHR-LLM 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FeatEHR-LLM: 전자의무기록 (EHR) 를 위한 특징 공학에 대규모 언어 모델 활용

요약

핵심 포인트

댓글