arXiv논문2026. 05. 07. 12:51

불완전한 의료 데이터에서 공동 치료 효과 추정: LLM 기반 진화적 MNAR 임푸티션과 시간적 인과 정규화 플로우

요약

본 논문은 임상 환경에서 흔히 발생하는 데이터의 불완전성(MNAR 누락)과 시간적 혼란을 동시에 다루어 치료 효과를 추정하는 2단계 파이프라인을 제안합니다. 첫 번째 단계인 CausalFlow-T는 DAG 제약 기반의 정규화 플로우로, 명시적인 인과 구조를 활용하여 정확한 반허상(counterfactual) 추론을 수행합니다. 두 번째 단계에서는 LLM 기반 진화적 임푸터가 MNAR 누락된 바이오마커와 인과 지표를 효과적으로 복원하며, 이 파이프라인은 실제 EHR 데이터에서 높은 회복력과 정확도를 입증했습니다.

핵심 포인트

불완전한 의료 데이터(MNAR)와 시간적 혼란을 동시에 다루는 2단계 치료 효과 추정 프레임워크를 제시함.
CausalFlow-T: DAG 제약과 정규화 플로우를 결합하여 인과 구조 기반의 정확한 반허상 추론을 수행함.
LLM 기반 진화적 임푸터는 MNAR 누락된 바이오마커 및 인과 지표에 대해 높은 복원력과 선도적인 성능을 보임.
실제 EHR 데이터(당뇨병 환자)를 사용하여 GLP-1 작용제의 우월한 체중 감소 효과(-0.98 kg)를 성공적으로 추정하여 임상적 유효성을 입증함.

무작위 대조 시험 (RCT) 이 불가능할 때 관찰 데이터를 사용하여 인과 질문을 연구할 수 있도록 허용하는 것이 타겟 시험 시뮬레이션 (TTE) 입니다. 그러나 치료 효과 방법은 종종 인과 추정, 누락성, 시간적 구조를 개별적으로 다루며, 이는 전자 건강 기록 (EHR) 에서 시간 변화 혼란변수와 누락되지 않은 랜덤 (MNAR) 바이오마커가 50%--80%에 달할 때 그 견고성을 제한합니다. 우리는 불완전한 종단성 EHR 에서 치료 효과 추정을 위한 2 단계 파이프라인을 제안합니다. 첫째, CausalFlow-T 는 긴 단축기 기억 (LSTM) 으로 인코딩된 환자 기록과 방향성 비순환 그래프 (DAG) 제약이 있는 정규화 플로우로, 변분 추정의 근사 오차를 피하고 명시적 인과 구조를 통해 혼란변수를 분리하여 정확한 가역적 반허상 추론을 수행합니다. 네 가지 합성 및 하나만 반합성 벤치마크에 대한 제거 실험은 DAG 제약과 정확한 추론이 서로 다른 실패 모드를 해결함을 보여줍니다: 어느 것도 다른 것을 보상하지 않습니다. 둘째, CausalFlow-T 가 완료된 입력을 필요로 하기 때문에, 우리는 실행 가능한 임푸티션 연산자를 제안하는 대신 개별 항목을 제안하는 LLM 기반 진화적 임푸터 (imputer) 를 도입하고 세 가지 큰 언어 모델 (LLM) 백엔드,其中包括 두 개는 오픈소스 모델을 포함하여 평가했습니다. 30%--80% MNAR 누락성에 대해 이 임푸터는 바이오마커 및 인과 지표에 대해 가장 좋은 풀링 랭크를 달성하며, 통계적 기준선이 열화될 때 평균 치료 효과 (ATE) 회수율을 보존하면서 점별 정확도와 시간적 외삽에서 선도합니다. 2 형 당뇨병을 앓고 GLP-1 수용체 작용제 또는 SGLT-2 억제제를 시작하는 성인들의 스위스初级保健 EHR 에서, 파이프라인은 GLP-1 수용체 작용제가 유리한 프로토콜 중량 체중 감소 차이를 -0.98 kg [95% CI -1.01, -0.96] 을 추정하며, 이는 무작위 증거와 일치하고 현실적으로 불완전한 실제 세계 EHR 에서 얻었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

불완전한 의료 데이터에서 공동 치료 효과 추정: LLM 기반 진화적 MNAR 임푸티션과 시간적 인과 정규화 플로우

요약

핵심 포인트

댓글