AI가 마커 유전자(Marker Genes)로부터 추론할 수 있는가? PBMC3k를 활용한 단일 세포(Single-Cell) 벤치마크 구축

대부분의 단일 세포 RNA-seq (single-cell RNA-seq) 예제는 다음과 같은 패턴으로 끝납니다:

데이터 로드 (load data)
전처리 (preprocess)
세포 클러스터링 (cluster cells)
...

이러한 워크플로우는 유용하지만, 한 가지 중요한 부분인 추론 (reasoning) 단계를 미발달 상태로 남겨둡니다.

클러스터 레이블 (cluster label)은 마커 유전자 (marker-gene) 증거에 의해 뒷받침될 때에만 의미가 있습니다.

**단일 세포 마커 추론 벤치마크 (Single-Cell Marker Reasoning Benchmark)**는 그 추론 단계를 재현 가능한 벤치마크로 전환합니다.

저장소 (Repository):

Github

프로젝트가 하는 일

이 프로젝트는 PBMC3k 단일 세포 RNA-seq 데이터를 시작으로 Scanpy 기반의 분석 워크플로우를 실행합니다.

그 다음, 마커 유전자 출력값을 벤치마크 태스크 (benchmark tasks)로 변환합니다.

그 결과는 단순한 단일 세포 분석이 아닙니다. 이는 마커 유전자 추론을 위한 평가 시스템입니다.

데이터셋 (Dataset)

이 프로젝트는 Scanpy를 통해 PBMC3k를 사용합니다.

Raw 데이터셋: 2700 cells × 32738 genes
처리된 데이터셋: 2694 cells × 2000 highly variable genes
클러스터: 9 Leiden clusters

PBMC는 말초 혈액 단핵 세포 (peripheral blood mononuclear cells)를 의미합니다. 이는 혈액에서 유래한 면역 세포로, 마커 유전자 해석 예제에 유용한 데이터셋입니다.

분석 워크플로우 (Analysis Workflow)

워크플로우에는 다음이 포함됩니다:

PBMC3k 로딩
QC 및 전처리 (preprocessing)
정규화 (normalisation)
...

마커 필터링 (Marker Filtering)이 추가된 이유

가공되지 않은 마커 유전자 출력값에는 추론 태스크에 이상적이지 않은 유전자가 포함될 수 있습니다.

예시:

RPS*
RPL*
MT-*
...

이러한 유전자들은 리보솜 신호 (ribosomal signal), 미토콘드리아 신호 (mitochondrial signal), 하우스키핑 발현 (housekeeping expression), 또는 광범위한 배경 활동 (broad background activity)을 반영할 수 있습니다.

이 프로젝트는 가공되지 않은 마커 출력값을 유지하면서도, 벤치마크 태스크가 생물학적으로 더 유용한 신호에 기반할 수 있도록 필터링된 마커 테이블을 생성합니다.

클러스터 주석(Annotation) 예시

클러스터 (Cluster)	주석 (Annotation)	마커 증거 (Marker Evidence)
0	T cells	CD3D, CD3E, IL7R, LTB
...

이것들은 마커에서 유도된 작업용 주석이며, 실험적으로 검증된 정답 (ground truth)은 아닙니다.

벤치마크 태스크 제품군 (Benchmark Task Families)

이 프로젝트는 세 가지 벤치마크 태스크 제품군을 생성합니다.

1. 숨겨진 클러스터 주석 (Hidden Cluster Annotation)

솔버 (Solver)는 마커 유전자 (Marker genes)를 전달받아 가능성이 높은 세포 유형 (Cell type)을 예측합니다.

예시:

CD79A, CD79B, MS4A1, CD74

예상되는 해석:

B cells

2. 마커 모순 탐지 (Marker Contradiction Detection)

솔버 (Solver)는 마커 증거가 제안된 주석 (Annotation)과 모순되는지 확인합니다.

예시:

주장: B cells
마커: NKG7, GNLY, GZMB, PRF1

마커 증거는 B cells가 아닌 NK 세포 또는 세포독성 면역 세포 (Cytotoxic immune cells)를 뒷받침합니다.

3. 마스킹된 마커 복구 (Masked Marker Recovery)

솔버 (Solver)는 부분적인 마커 증거를 전달받아 가능성이 높은 생물학적 정체성 (Biological identity)을 복구합니다.

이는 불완전한 증거 하에서의 추론 능력을 테스트합니다.

공개 태스크 및 숨겨진 정답 (Public Tasks and Hidden Answers)

본 벤치마크는 공개된 태스크 입력과 숨겨진 정답 키 (Answer keys)를 분리합니다.

benchmark_tasks/public/
benchmark_tasks/hidden/
benchmark_tasks/oracle_outputs/

현재 벤치마크 규모:

16개의 공개 태스크
16개의 숨겨진 정답

이러한 분리는 정답 유출 (Answer leakage)을 방지하며 벤치마크의 신뢰성을 높입니다.

오라클 출력 (Oracle Outputs)

오라클 출력 (Oracle outputs)은 참조 스타일의 정답을 제공합니다.

포함 내용:

예측된 라벨 (predicted label)
뒷받침하는 유전자 (supporting genes)
신뢰도 (confidence)
...

이를 통해 본 벤치마크는 향후 모델 또는 인간 솔버 (Human solver) 평가를 지원할 수 있습니다.

검증기 및 점수 산정 (Validators and Scoring)

프로젝트에는 다음이 포함됩니다:

src/scbench/validators.py
src/scbench/scoring.py
scripts/07_score_solver_answers.py

점수 산정 로직은 정답이 예상되는 라벨과 일치하는지, 뒷받침하는 증거를 포함하는지, 그리고 추론 (Reasoning)을 제공하는지 확인합니다.

점수 산정 결과 샘플:

accuracy: 1.0
average score: 0.923

테스트 및 재현성 (Testing and Reproducibility)

프로젝트에는 다음이 포함됩니다:

pytest
Docker
Makefile
...

현재 테스트 상태:

36 passed

Docker 워크플로우는 프로젝트가 깨끗한 컨테이너 환경에서 실행될 수 있음을 검증합니다.

이 프로젝트가 차별화되는 이유

일반적인 단일 세포 (Single-cell) 프로젝트는 보통 다음과 같은 결과물을 생성합니다:

클러스터 (clusters)
UMAPs
마커 테이블 (marker tables)
...

본 프로젝트는 다음과 같은 결과물을 생성합니다:

클러스터 (clusters)
UMAPs
마커 테이블 (marker tables)
...

주요 시사점 (Main Takeaway)

이 프로젝트는 단일 세포 RNA-seq (single-cell RNA-seq) 워크플로우가 어떻게 벤치마크 시스템으로서 역할을 할 수 있는지를 보여줍니다.

단순히 다음과 같이 질문하는 대신:

클러스터 (clusters)는 무엇인가?

이 벤치마크는 다음과 같이 질문합니다:

솔버 (solver)가 마커 유전자 (marker-gene) 증거를 바탕으로 세포 유형 (cell-type) 해석을 정당화할 수 있는가?

이러한 관점의 전환은 프로젝트의 성격을 분석 (analysis)에서 평가 (evaluation)로 이동시킵니다.

AI가 마커 유전자(Marker Genes)로부터 추론할 수 있는가? PBMC3k를 활용한 단일 세포(Single-Cell) 벤치마크 구축

요약

핵심 포인트

프로젝트가 하는 일

데이터셋 (Dataset)

분석 워크플로우 (Analysis Workflow)

마커 필터링 (Marker Filtering)이 추가된 이유

클러스터 주석(Annotation) 예시

벤치마크 태스크 제품군 (Benchmark Task Families)

1. 숨겨진 클러스터 주석 (Hidden Cluster Annotation)

2. 마커 모순 탐지 (Marker Contradiction Detection)

3. 마스킹된 마커 복구 (Masked Marker Recovery)

공개 태스크 및 숨겨진 정답 (Public Tasks and Hidden Answers)

오라클 출력 (Oracle Outputs)

검증기 및 점수 산정 (Validators and Scoring)

테스트 및 재현성 (Testing and Reproducibility)

이 프로젝트가 차별화되는 이유

주요 시사점 (Main Takeaway)

주요 시사점 (Main Takeaway)

댓글