Arc 가상 세포 도전: 입문서

맥락 일반화. ML 엔지니어에게 생물학 배경 지식이 거의 없거나 전혀 없는 경우, 전문 용어와 필요한 맥락은 매우 intimidating(위압적)해 보일 수 있습니다. 참여를 독려하기 위해 다른 학문의 엔지니어들에게 더 적합한 형태로 도전을 재구성했습니다.

목표
CRISPR 를 사용하여 유전자를 침묵시킬 때 세포에 미치는 영향을 예측하는 모델을 훈련합니다.

원자 세계에서는 실험이 비싸고, 번거롭고 오류가 많습니다. 만약 페트리 접시 (petri dish) 를 한 번도 건드리지 않고 수천 가지 약물 후보를 테스트할 수 있다면 어떨까요? 이것이 가상 세포 도전의 목표입니다 — 어떤 파라미터를 변경했을 때 세포에 정확히 일어나는 일을 시뮬레이션할 수 있는 모델 (가장 유력하게 신경망). 피드백 루프를 조이는 것이 진전을 가속화하는 가장 좋은 방법인 점을 고려할 때, 이를 정확하게 수행할 수 있는 모델은 상당한 영향을 미칠 것입니다.

이 신경망을 훈련하기 위해서는 데이터가 필요합니다. 도전에 따라 Arc 는 약 30 만 개의 단일 세포 RNA 시퀀싱 프로파일을 가진 데이터셋을 정리했습니다. 계속하려면 중앙 법칙 (Central Dogma) 을 다시 검토하는 것이 유용할 수 있습니다. 이 에세이는 도전에 필요한 최소한의 생물학 지식을 제공하기 위해 이를 바탕으로 작성됩니다.

훈련 세트는 희소 행렬과 관련 메타데이터로 구성됩니다. 구체적으로, 우리는 22 만 개의 세포를 가지며, 각 세포에는 전사체 (transcriptome) 가 있습니다. 이 전사체는 희소 행 벡터이며, 각 항목은 해당 유전자 (우리의 열) 가 암호화하는 RNA 분자의 원자 수입니다. 22 만 개의 세포 중 약 38 만 개는 침적되지 않은 (unperturbed) 것으로, CRISPR 를 사용하여 유전자를 침묵하지 않았습니다. 이러한 제어 세포는 곧 우리가 볼 것처럼 중요합니다.

데이터셋을 더 구체적으로 이해하기 위해, TMSB4X(데이터셋에서 가장 자주 침묵된 유전자) 를 선택하고 제어 세포와 침적 세포의 검출된 RNA 분자 수를 비교해 보겠습니다.

TMSB4X 가 침묵된 세포는 제어 세포에 비해 전사체 수가 크게 감소한 것을 볼 수 있습니다.

당신 중 한 명은 왜 유전자를 침묵하기 전에후에 RNA 분자의 수를 직접 측정하지 않는지 궁금해할 것입니다. 왜 우리는 제어 세포가 필요한지? 불행히도, 전사체를 읽는 것은 세포를 파괴합니다. 이는 관찰자 효과 (observer effect) 를 연상하는 문제입니다.

이러한 전후의 세포 상태를 측정할 수 없는 능력은 많은 문제를 야기하며, 우리는 기저 (basal, a.k.a 제어, 침적되지 않은) 세포 집단을 참조점으로 사용해야 합니다. 제어 세포와 침적 세포는 침적이 발생하기 전에 완전히 균일하지 않습니다. 이는 우리가 신호인 침적을 노이즈인 기저 집단의 불균질성에서 분리해야 함을 의미합니다.

보다 형식적으로, 침적 세포에서 관찰된 유전자 발현은 다음과 같이 모델링할 수 있습니다:

여기서:

: 침적 세포에서 관찰된 유전자 발현 측정값
: 침적되지 않은 기저 세포 집단의 분포
: 침적이 인구에게 미치는 실제 효과
: 기저 집단의 생물학적 불균질성
: 침적되지 않은 세포 상태와 독립적이고, 실험 특이적인 기술 노이즈로 가정됨

가상 세포 도전 이전에 Arc 는 STATE 를 출시했습니다. 이는 도전을 해결하기 위해 트랜스포머 기반 모델 쌍을 사용한 Arc 의 시도입니다. 이는 참여자들이 시작할 수 있는 강력한 기준선 (baseline) 이므로, 우리는 이를 자세히 탐구합니다.

STATE 는 State Transition Model (ST) 과 State Embedding Model (SE) 으로 구성된 두 가지 모델입니다. SE 는 세포의 풍부한 의미론적 임베딩을 생성하여 교차 세포형 일반화 성능 향상을 목표로 설계되었습니다. ST 는 '세포 시뮬레이터'로, 제어 세포의 전사체 또는 SE 로부터 생성된 세포 임베딩과 관심 있는 변형 (perturbation) 을 나타내는 one hot 인코딩 벡터를 입력받아 변형된 전사체를 출력합니다.

State Transition Model 은 Llama 백본을 사용하는 상대적으로 간단한 트랜스포머로, 다음을 기반으로 작동합니다:

공변량 매칭된 basal 세포의 전사체 (또는 SE 임베딩) 세트
각 세포를 나타내는 우리 유전 변형을 표현하는 one hot 벡터 세트

공변량 매칭된 제어 세포 세트를 사용하여 목표 세포와 쌍을 이루게 하면, 모델이 의도한 변형의 실제 효과를 구별하는 데 도움이 될 것입니다. 제어 집합 텐서와 변형 텐서는 각각 독립적인 인코더를 통해 전달되며, 이는 GELU 활성화가 있는 4 레이어 MLP 입니다. 만약 유전자 발현 공간에서 직접 작업한다면 (즉, 전체 전사체를 생성한다면), 출력은 학습된 디코더를 통해 전달됩니다.

ST 는 Maximum Mean Discrepancy 를 사용하여 훈련됩니다. 간단히 말하면, 모델은 두 확률 분포 간의 차이를 최소화하도록 학습합니다.

State Embedding Model 은 BERT 와 같은 오토인코더입니다. 이를 더 깊이 이해하기 위해 먼저 생물학적 배경을 위한 조금 더 큰 편차를 취해야 합니다.

유전자는 exons (단백질 부호화 섹션) 과 introns (비단백질 부호화 섹션) 으로 구성됩니다. DNA 는 위에서 보인 바와 같이 pre-mRNA 로 먼저 transcribed 됩니다. 그 후 세포는 Alternative Splicing 을 수행합니다. 이는 기본적으로 'exon 을 골라내다', 모든 intron 을 잘라내는 것입니다. 유전자는 테이블을 만드는 IKEA 매뉴얼이라고 생각할 수 있습니다. 일부 부분을 제외하면 3 개의 다리가 있는 테이블이나, 노력으로 인해 이상적인 책장 등을 구성할 수도 있습니다. 이러한 다른 객체들은 protein isoforms 와 유사하며, 동일한 유전자에 의해 코딩된 단백질입니다.

이 기본적인 이해를 바탕으로 SE 모델의 작동 원리를 넘어설 수 있습니다. 기억해 주세요, SE 의 핵심 목표는 meaningful cell embeddings 를 생성하는 것입니다. 이를 위해서는 먼저 의미 있는 gene embeddings 을 생성해야 합니다.

단일 유전자 임베딩을 생성하려면, 해당 유전자가 코딩하는 모든 단백질 isoform 의 아미노산 서열 (예: ... TMSB4X) 을 먼저 얻습니다. 그런 다음 우리는 FAIR 에서 15B 파라미터를 가진 Protein Language Model 인 ESM2 를 사용하여 이러한 서열들을 입력합니다. ESM 은 아미노산 per amino acid 임베딩을 생성하며, 이를 풀어서 'transcript' (즉, 단백질 isoform) 임베딩을 얻습니다.

이제 우리는 모든 단백질 isoform 임베딩을 가지고 있으므로, 이제 mean pool 을 사용하여 유전자 임베딩을 얻습니다. 다음으로, 학습된 인코더를 사용하여 다음과 같이 이 gene embeddings 을 모델 차원 (model dimension) 으로 투영합니다:

우리는 이제 유전자 임베딩을 얻었으나, 우리가 실제로 원하는 것은 cell embedding 입니다. 이를 위해 Arc 는 log fold expression level 로 순위가 높은 상위 2048 개 유전자를 사용하여 각 세포를 나타냅니다.

그 후 우리는 다음과 같이 2048 개의 gene embeddings 에서 'cell sentence' 를 구성합니다:

우리는 문장에 토큰을 추가합니다. 이 토큰은

import torch
from transformers import StateEmbeddingModel
model_name = "arcinstitute/SE-600M"
...

모든 참가자에게 행운을 빕니다!

이 게시물은 원래 여기에서 게시되었습니다.

Arc 가상 세포 도전: 입문서

요약

핵심 포인트

댓글