arXiv논문2026. 06. 09. 12:05

해석 가능한 scRNA-seq 분석을 위해 유전자 조절 사전 지식을 Transformer 어텐션에 통합하는 scTransformer

요약

scTransformer는 유전자 조절 사전 지식을 Transformer 어텐션 메커니즘에 통합하여 단일 세포 전사체학 분석의 해석 가능성을 높인 모델입니다. 기존 모델과 달리 생물학적 구조를 반영하여 세포 유형 분류 정확도와 임베딩 성능을 향상시켰습니다.

핵심 포인트

유전자 조절 정보를 어텐션 패턴에 명시적으로 통합
기존 Transformer 대비 세포 유형 분류 정확도 향상
생물학적 메커니즘과 일치하는 해석 가능한 어텐션 생성
단일 세포 오믹스용 파운데이션 모델을 위한 연구 방향 제시

동기 (Motivation): Transformer 기반 모델은 대규모 단일 세포 전사체학 (single-cell transcriptomics)에 점점 더 많이 적용되고 있으며, 수백만 개의 세포에 대한 자기 지도 학습 (self-supervised learning)을 통해 강력한 성능을 보여주고 있습니다. 그러나 기존의 대부분의 접근 방식은 유전자를 독립적인 특징 (features)으로 취급하며, 사전 생물학적 지식 (prior biological knowledge)을 크게 무시하는데, 이는 해석 가능성 (interpretability)과 견고성 (robustness)을 제한합니다. 본 논문에서는 유전자 조절 정보 (gene regulatory information)를 명시적으로 통합하는 것이 모델의 성능과 생물학적 통찰력을 모두 향상시킬 수 있는지 탐구합니다.

결과 (Results): 우리는 생물학적 메커니즘에 대한 사전 지식 (a priori knowledge)을 모델의 어텐션 패턴 (attention patterns)에 구축하는 최초의 Transformer 기반 접근 방식인 scTransformer를 제시합니다. 알려진 조절 구조 (regulatory structures)에 따라 정보 흐름을 제한함으로써, 모델은 생물학적으로 더 의미 있는 표현 (representations)을 학습합니다. 우리는 지도 학습 기반의 세포 유형 분류 (supervised cell-type classification)를 사용하여 질병 관련 단일 핵 RNA-seq (single-nucleus RNA-seq) 데이터셋에서 scTransformer를 평가합니다. 표준 Transformer와 비교했을 때, 우리의 접근 방식은 분류 정확도를 향상시키고, 임베딩 공간 (embedding space)에서 세포 유형의 분리 성능을 높이며, 알려진 조절 프로그램 (regulatory programs)과 일치하는 어텐션 패턴을 생성합니다. 전반적으로, 우리의 결과는 Transformer 모델에 생물학적 구조를 임베딩하는 것이 성능을 희생하지 않으면서도 해석 가능성을 높일 수 있음을 입증하며, 단일 세포 오믹스 (single-cell omics)를 위한 생물학적 근거를 갖춘 파운데이션 모델 (foundation models)로 나아가는 원칙적인 단계를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

해석 가능한 scRNA-seq 분석을 위해 유전자 조절 사전 지식을 Transformer 어텐션에 통합하는 scTransformer

요약

핵심 포인트

댓글