arXiv논문2026. 06. 01. 12:04

유전자 발현 마스킹을 통한 효과적인 생물학적 표현 학습

요약

RNA 시퀀싱 데이터의 노이즈와 배치 효과 문제를 해결하기 위해 새로운 자기지도 학습 모델인 TxFM을 제안합니다. 마스크 오토인코딩 방식을 통해 고충실도 유전자 표현을 학습하며, 큐레이션된 데이터셋을 통해 기존 대규모 모델보다 뛰어난 성능을 입증했습니다.

핵심 포인트

자기지도 학습 기반의 새로운 전사체 모델 TxFM 개발
마스크 오토인코딩을 통한 효과적인 생물학적 표현 학습
큐레이션된 DiverseRNA-1.4M 데이터셋의 중요성 확인
기존 대규모 아틀라스 모델 대비 우수한 전이 성능 입증

RNA 시퀀싱 (RNA sequencing)은 유전자 발현 (gene expression)에 대한 풍부하고 다양한 데이터셋을 생성하며, 신약 개발 분야에서 활용도가 높은 세포 상태 및 기능에 대한 강력한 통찰력을 제공합니다. 이러한 데이터를 모델링하는 것은 내재적인 기술적 노이즈 (technical noise)와 실험적 배치 효과 (experimental batch effects)로 인해 어려움이 있으며, 이는 기존의 많은 전사체 파운데이션 모델 (transcriptomic foundation models, FMs)들이 선형 베이스라인 (linear baselines)에 비해 성능이 떨어진다는 사실에서도 입증됩니다. 이러한 결과는 딥 표현 학습 (deep representation learning)이 가공되지 않은 전사체 카운트 (raw transcript counts)를 직접 사용하는 것보다 뚜렷한 이점을 제공하는지에 대한 의문을 제기합니다. 본 연구에서는 귀납적 표현 학습 (inductive representation learning) 평가에 초점을 맞춘 새로운 자기지도 학습 (self-supervised) 모델인 TxFM을 개발하여 이를 탐구합니다. TxFM은 다양한 RNA-seq 카운트 데이터에 맞춤화된 마스크 오토인코딩 (masked autoencoding) 방식을 채택하며, 우리의 어블레이션 연구 (ablation study)는 강력한 전이 성능 (transfer performance)을 위해 필요한 핵심 아키텍처 구성을 경험적으로 식별합니다. 또한, 우리는 공개 학습 코퍼스인 DiverseRNA-1.4M을 큐레이션하였으며, 이 큐레이션된 데이터셋으로 학습된 TxFM이 100배 이상 큰 아틀라스 규모 (atlas-scale)의 코퍼스로 학습된 FM들보다 더 뛰어난 고충실도 유전자 표현 (high-fidelity gene representations)을 생성한다는 것을 발견했습니다. 종합적으로, 우리의 결과는 모델 아키텍처와 학습 데이터 큐레이션의 세심한 결합이 이루어진다면, 귀납적 자기지도 학습 (inductive self-supervised learning)이 전사체 표현 (transcriptomics representation)을 위한 실행 가능한 모델링 접근 방식임을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

유전자 발현 마스킹을 통한 효과적인 생물학적 표현 학습

요약

핵심 포인트

댓글