arXiv논문2026. 05. 05. 12:57

Nationwide Medical Claims 데이터 기반 의료 Foundation 모델 ReClaim 소개

요약

본 기사는 대규모 실세계 의료 청구(Administrative claims) 데이터를 활용하여 훈련된 생성형 트랜스포머 모델인 ReClaim을 소개합니다. ReClaim은 진단, 절차, 약물, 지출에 걸친 장기적인 의료 경로를 효과적으로 모델링하며, 기존의 예측 모델 대비 높은 성능을 보여주었습니다. 이 모델은 질병 발병 예측뿐만 아니라 의료 지출 예측 및 실세계 증거(RWE) 분석 개선에도 활용되어, 행정 청구가 강력한 의료 Foundation 모델의 서브스트레이드임을 입증했습니다.

핵심 포인트

ReClaim은 2008년부터 2022년까지의 대규모 MarketScan 청구 데이터(438억 건)를 기반으로 처음부터 훈련된 생성형 트랜스포머 모델입니다.
질병 발병 예측 과제에서 ReClaim은 평균 AUC 75.6%를 달성하며, 기존 최신 모델들을 크게 능가하는 성능을 보였습니다.
이 모델은 질병 감시 및 지출 예측 같은 임상적 응용 분야 외에도, 실세계 증거(RWE) 분석의 편향성을 줄이는 데 기여합니다.
ReClaim의 우수한 성능과 일반화 능력은 행정 청구 데이터가 의료 Foundation 모델을 구축하는 확장 가능한 서브스트레이드임을 입증했습니다.

대규모 실세계 데이터 (RWD) 에서 도출된 증거는 규제 평가 및 의료 의사결정에 점점 더 많은 영향을 미치고 있습니다. 행정 청구 (Administrative claims) 는 인구 규모, 장기적 기록을 제공하며 진단, 절차, 약물의 상세한 코딩을 포함하지만, 의료 Foundation 모델의 서브스트레이드로서의 잠재력은 아직 충분히 탐구되지 않았습니다. 여기서는 MarketScan 청구 데이터 (2008-2022 년) 의 438 억 개의 의료 사건에서 처음부터 훈련된 생성형 트랜스포머인 ReClaim 을 소개합니다. ReClaim 은 진단, 절차, 약물, 지출에 걸친 장기적 경로를 모델링하며, 1 억 4 천만, 7 억, 17 억 개의 파라미터로 확장되었습니다. 1,000 개 이상의 질병 발병 예측 과제에서 ReClaim 은 평균 AUC 75.6%를 달성하여 LightGBM (66.3%) 과 트랜스포머 기반 Delphi 모델 (69.4%) 을 크게 상회했으며, 희귀 질환에서의 이득이 가장 큽니다. 이러한 우위는 후향적 및 전향적 평가와 두 개의 독립 데이터셋 외부 검증에서 유지되었습니다. 성능은 규모에 따라 단조롭게 개선되었으며, 훈련 후 추가된 지점은 사전 훈련만으로는 13.8% 포인트를 초과했습니다. 질병 예측을 넘어 ReClaim 은 재정적 결과를 포착하고 실세계 증거 (RWE) 분석을 개선했습니다: 의료 지출 예측에서는 LightGBM 대비 설명 변동성을 0.28 에서 0.37 으로 증가시켰으며, 목표 시뮬레이션 (target trial emulation) 에서는 Delphi 대비 평균 72% 의 체계적 편향을 줄였습니다. 이러한 결과들은 행정 청구가 의료 Foundation 모델의 확장 가능한 서브스트레이드임을 입증하고, 학습된 표현이 시간대와 데이터 소스를 넘어 일반화됨을 보여주어 질병 감시, 지출 예측 및 RWE 생성을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Nationwide Medical Claims 데이터 기반 의료 Foundation 모델 ReClaim 소개

요약

핵심 포인트

댓글