arXiv논문2026. 06. 01. 12:04

Chem-PerturBridge: 소분자 섭동 전사체 효과의 조화로운 요약집

요약

Chem-PerturBridge는 파편화된 소분자 섭동 전사체 데이터를 통합한 대규모 다중 데이터셋 리소스입니다. 37,000개 이상의 화합물과 125만 개의 샘플을 표준화하여 제공하며, 화합물 표현 학습을 위한 사전 학습 리소스로서 뛰어난 성능을 입증했습니다.

핵심 포인트

37,000개 이상의 화합물과 125만 개 전사체 샘플 통합
표준화된 메타데이터 및 반복 실험 고려 조건 수준 효과 제공
화합물 표현 학습을 위한 사전 학습 리소스로서의 효용성 확인
기존 L1000 임베딩 및 Morgan 지문 대비 개선된 성능 입증

대규모 섭동 모델 (perturbation models)은 화학적, 세포적, 그리고 분석 (assay) 다양성을 아우르는 학습 데이터를 필요로 합니다. 그러나 소분자 모델링을 위한 현재의 전사체 (transcriptomic) 리소스는 기술, 메타데이터 규약, 대조군 (controls), 용량 (doses), 그리고 전처리 파이프라인 (preprocessing pipelines)에 따라 파편화되어 있습니다. 우리는 37,000개 이상의 화합물, 136개의 세포 맥락 (cellular contexts), 그리고 8가지 분석 유형에 걸친 125만 개의 전사체 샘플을 포함하며, 표준화된 식별자, 메타데이터, 그리고 반복 실험을 고려한 조건 수준의 효과 (replicate-aware condition-level effects)를 갖춘 조화된 다중 데이터셋 리소스인 Chem-PerturBridge를 소개합니다. 우리는 이 리소스를 사용하여 데이터셋 간의 일치된 조건 일치도 (matched-condition agreement)와 데이터셋 내의 반복 실험 일치도 (replicate agreement)를 평가합니다. 동일 화합물의 일치된 조건들은 대부분의 데이터셋 쌍에서 세밀한 logFC 순위 및 크기 측면에서 일반적으로 약한 일치도를 보였으며, 종종 동일 맥락의 서로 다른 화합물 기준선 (baselines)보다 낮은 수치를 기록했습니다. 반면, logFC 방향 일치도는 상당히 더 안정적이며 대개 이러한 기준선을 상회합니다. 우리는 더 나아가 화합물 표현 학습 (compound representation learning)을 위한 사전 학습 (pretraining) 리소스로서 Chem-PerturBridge를 평가합니다. 화합물 제외 (compound-held-out) OP3 평가 분할 하에서, Chem-PerturBridge로 사전 학습된 임베딩 (embeddings)은 L1000 전용 임베딩, Morgan 지문 (Morgan fingerprints), 그리고 기술자 없는 (descriptor-free) OP3 기준선보다 여러 지표에서 개선된 성능을 보였습니다. 11개 데이터셋에 걸친 광범위한 분자 제외 (molecule-holdout) 평가를 통해 Chem-PerturBridge로 학습된 모델이 그렇지 않은 모델보다 성능이 뛰어나거나 대등함을 추가로 확인했습니다. 따라서 Chem-PerturBridge는 데이터셋 간 시그니처 일치도에 대한 진단적 평가와 이질적인 섭동 전사체 데이터의 모델 지향적 재사용을 모두 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Chem-PerturBridge: 소분자 섭동 전사체 효과의 조화로운 요약집

요약

핵심 포인트

댓글