본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 12:15

OncoTraj: osimertinib 처방을 받는 EGFR 변이 비소세포폐암의 종단적 저항성 예측을 위한 공개 벤치마크

요약

EGFR 변이 비소세포폐암 환자의 osimertinib 저항성을 예측하기 위한 공개 벤치마크인 OncoTraj를 소개합니다. 813명의 임상-유전체 데이터를 통합하여 질병 진행 여부, 진행 시간, 저항성 기전을 예측하는 세 가지 과업을 정의합니다.

핵심 포인트

  • 813명의 환자 데이터를 통합한 OncoTraj 벤치마크 공개
  • 질병 진행 분류, 시간 회귀, 저항성 기전 분류 과업 정의
  • 단일 시점 NGS 데이터의 한계로 인한 모델 성능 제약 확인
  • 연속적 ctDNA 데이터 기반의 v2 개발 필요성 제시

EGFR 변이 비소세포폐암 (NSCLC)에서 1차 치료제인 osimertinib에 대한 저항성은 치료 압력 하에서의 예측 가능한 클론 진화 (clonal evolution)의 전형적인 사례이지만, 이에 상응하는 종단적 환자 궤적 (longitudinal patient trajectories)을 바탕으로 계산 모델을 훈련하거나 평가할 수 있는 공개 벤치마크는 존재하지 않습니다. 우리는 세 가지 실제 임상-유전체 소스인 MSK-CHORD (672명), AACR Project GENIE BPC NSCLC (34명), 그리고 FLAURA 분자 저항성 보충 자료 (107명)로부터 통합된, 1차 osimertinib을 투여받은 813명의 EGFR 변이 NSCLC 환자를 대상으로 하는 공개 벤치마크인 OncoTraj를 소개합니다. OncoTraj는 세 가지 고정된 과업을 정의합니다: (A) 12개월 랜드마크 기준의 질병 진행 여부에 대한 이진 분류 (binary classification), (B) 첫 진행까지의 시간을 일 단위로 예측하는 회귀 (regression), (C) 지배적인 저항성 기전의 6개 클래스 분류 (six-class classification). 우리는 통합된 데이터셋, 데이터 누출(no-leakage) 검증이 완료된 환자 수준의 훈련/검증/테스트 분할, 오픈 소스 평가 하네스 (evaluation harness), 그리고 다수 클래스 예측기, 로지스틱 회귀 (logistic regression), 랜덤 포레스트 (random forest), XGBoost, LSTM, 그리고 멀티태스크 트랜스포머 (multi-task transformer)를 포함하는 6개의 참조 베이스라인을 공개합니다. v1의 단일 시점 스냅샷 특징 (single-timepoint snapshot features)을 사용했을 때, 깨끗한 소스 내 평가 (within-source evaluation)에서 어떤 과업도 우연 수준 (chance)을 넘어서지 못했습니다. 모든 모델 클래스에서 나타나는 이러한 성능 한계의 균일성은, 그 한계가 알고리즘이 아닌 입력 양식 (input modality) (연속적인 ctDNA가 아닌 단일 스냅샷 조직 NGS)에 있음을 나타냅니다. 이 벤치마크는 문헌과 일치하는 재현 가능한 연관성을 회복합니다: TP53 공동 변이 (co-mutation)는 코호트 전체에서 12개월 진행률을 29%에서 59%로 높입니다. OncoTraj는 재현 가능하고 누출 검증이 완료된 베이스라인을 구축하며, 현재의 양식 한계를 연속적 ctDNA가 강화된 v2를 위한 구체적인 설계 요구 사항으로 전환합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0