arXiv논문2026. 05. 11. 23:24

단일 세포 표현 학습을 위한 프로토타입 기반 후(Post)-사전 학습

요약

본 논문은 단일 세포 표현 학습(SCRL)의 한계점, 특히 데이터의 꼬리 분포와 공변량 변화에 따른 일반화 문제를 해결하기 위해 CellRefine이라는 후(post)-사전 학습 방법을 제안합니다. CellRefine은 마커 유전자 세트 같은 구조적 사전 지식을 통합하여 모델이 세포의 잠재 임베딩 다양체를 효과적으로 정제하도록 돕습니다. 실험 결과, 이 방법은 다양한 계산 생물학 작업에서 다운스트림 성능을 일관되게 개선하며 최대 15%까지 향상시키는 것으로 나타났습니다.

핵심 포인트

단일 세포 표현 학습(SCRL) 모델은 대규모 언어 모델(LLM)의 영감을 받았으나, 데이터의 꼬리 분포와 공변량 변화에 취약하다는 근본적인 한계를 가진다.
제안된 CellRefine은 사전 학습과 파인튜닝 사이에 작동하는 후(post)-사전 학습 방법이다.
CellRefine은 마커 유전자 세트 같은 구조적 사전 지식(structural priors)을 통합하여 잠재 임베딩 다양체를 정제한다.
이 방법은 다양한 계산 생물학 작업에서 다운스트림 성능을 일관되게 개선하며 최대 15%의 성능 향상을 보여준다.

유전자 발현 데이터로부터의 단일 세포 표현 학습 (SCRL)은 세포 기능의 근본적인 복잡한 조절 논리를 밝혀내는 방법을 제공합니다. 자연어 모델링에서의 대규모 언어 모델에서 영감을 받아, 최근 유전자를 토큰으로, 세포를 문장으로 취급하는 여러 단일 세포 사전 학습 모델이 제안되었습니다. 하지만 이러한 모델들은 세포 유형 분포의 꼬리 분포(long-tailed nature)에 의해 근본적으로 제한되며, 유전자 발현 데이터의 공변량 변화(covariate shifts) 하에서 일반화하는 데 어려움을 겪습니다. 파인튜닝(fine-tuning)이 종종 이러한 문제를 완화하는 데 사용되지만, 성능은 여전히 한계가 있음을 관찰했습니다. 이 과제를 해결하기 위해, 우리는 단일 세포 파운데이션 모델의 사전 학습과 파인튜닝 단계 사이에 작동하는 후(post)-사전 학습 방법인 CellRefine을 소개합니다. CellRefine은 마커 유전자 세트(marker-gene sets)를 구조적 사전 지식(structural priors)으로 통합하여 후(post)-사전 학습을 안내하고 세포의 잠재 임베딩 다양체(latent embedding manifold)를 정제하는 다각적인 목적 함수를 사용합니다. 여러 계산 생물학 작업 전반에 걸쳐, 경험적 결과는 CellRefine이 다운스트림 성능을 일관되게 개선하며 최대 15%까지 향상되는 이득을 가져온다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

단일 세포 표현 학습을 위한 프로토타입 기반 후(Post)-사전 학습

요약

핵심 포인트

댓글