
Genebench-Pro 내부 살펴보기
요약
Genebench-Pro 벤치마크의 내부 구조와 사례 연구를 상세히 분석합니다. 프롬프트, 데이터셋, 지원 자료를 포함한 10가지 사례를 통해 모델의 성능을 검증하는 방식을 설명합니다.
핵심 포인트
- Genebench-Pro의 10가지 대표 사례 연구 및 프롬프트 구조 공개
- 종양 치료 유용성 추정을 위한 약물 유전체학 데이터 활용
- lncRNA 의존성 및 전사체 특이성 검증 방법론 제시
- cis-MVMR 등 통계적 기법을 활용한 데이터 분석 구조
Genebench-Pro 내부 살펴보기
벤치마크(benchmark), 질문 및 지원 자료에 대한 자세한 분석.
이 10가지 사례 연구(case studies)는 GeneBench-Pro의 대표적인 질문들을 보여줍니다. 각 사례 연구에는 원본 프롬프트(prompt), 데이터셋(datasets) 및 지원 자료가 포함되어 있습니다. 벤치마크에 대한 개요와 주요 결과는 공지 블로그를 참조하십시오.
참고: 파일 미리보기는 전체 데이터셋의 발췌본을 보여줍니다.
구조적 변이(structural variant)에 의해 타겟 활성화가 유도되는 종양에서 합성된 TXR1 지향 억제제(synthetic TXR1-directed inhibitor)가 긍정적인 임상적 유용성(clinical utility)을 가질지 여부를 추정하십시오. TXR1, TXR1i, DLR1 및 star-allele 레이블은 합성된 벤치마크 레이블입니다.
이익(benefit)과 독성(toxicity)을 치료 결정으로 해석하기 전에, 롱리드(long-read), 발현(expression), 종양 품질(tumor-quality) 및 약물 유전체학(pharmacogenomic) 증거로부터 타겟 하위 그룹을 복구해야 합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
patient_id | analysis_set | age | sex | site | calendar_period | ecog | tumor_burden | prior_lines | prior_resistance | lineage_class | therapy_class | assessed16 | benefit16 | tox_stop_8wk | time_zero_day |
| MTB0001 | 1 | 73.8 | M | S1 | P2 | 2 | 0.787 | 3 | 1 | A | TXR1i | 0 | 1 | 0 | |
| MTB0002 | 1 | 55.2 | M | S3 | P1 | 1 | 2.637 | 0 | 1 | A | TXR1i | 1 | 0 | 0 | 0 |
| ... |
레지스트리 공변량(Registry covariates), 치료(therapy), 16주 차 평가(week-16 assessment), 이익(benefit) 및 초기 독성(early toxicity).
겉으로 드러나는 lncRNA 의존성(lncRNA dependency)이 전사체 특이적(transcript-specific)인지, 아니면 인접 로커스(nearby-locus) 및 이웃 유전자(neighbor-gene) 효과에 의한 것인지 결정하십시오.
전사체 지향 증거(Transcript-directed evidence)는 국소 DNA 로커스 섭동(local DNA-locus perturbation), 이웃 유전자 억제(neighbor-gene repression), 가이드 스왑(guide swaps), GC 독성(GC toxicity) 및 플레이트 효과(plate effects)에 대한 대조군 검증을 통과해야 합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
guide_id | nominal_target | chr | coord | strand | dist_lnc_tss_bp | dist_neighbor_tss_bp | guide_gc_frac |
| g001 | LINC473 | chr7 | 100014 | + | 14 | 30 | 0.624 |
| g002 | LINC473 | chr7 | 100035 | - | 43 | 67 | 0.584 |
| ... |
가이드 좌표(Guide coordinates), 타겟(targets), 거리(distances) 및 GC 특징(GC features).
cis 다변량 멘델 무작위 배정 (cis-MVMR)을 사용하여 어세이 스케일 (assay scale), 대립유전자 방향 (allele orientation), 승자의 저주 (winner's curse), 연관 불균형 (LD), 그리고 잔차 국소 다표현성 (residual local pleiotropy)을 처리하면서 인접한 두 단백질에 대한 직접적인 질병 효과를 추정합니다.
두 단백질은 상관관계가 있는 로커스 (locus)를 공유합니다. 분석은 주변부 연관 (marginal associations)에서 공통 단백질 스케일 상의 조건부이며 LD를 고려한 질병 효과로 이동해야 합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
snp | pos_bp | effect_allele | other_allele | maf | beta | se | pval |
| rs200000 | 50000000 | A | C | 0.42215 | 0.006438668310706808 | 0.003267330091203412 | 0.04876727714241972 |
| rs200001 | 50010126 | A | C | 0.05709 | 0.011008993337581301 | 0.006955239208750407 | 0.11345916603941006 |
| ... |
PROTA를 위한 스크리닝 단계 단백질 연관성 요약.
보인자 스크리닝 어세이 (carrier-screening assay) 데이터로부터 조상 특이적 보인자 빈도 (ancestry-specific carrier frequencies), 음성 스크리닝 후 잔차 위험 (residual risk), 파트너 보인자 빈도 (partner carrier frequency), 그리고 영향을 받은 태아 위험 (affected-conceptus risk)을 추정합니다.
잔차 위험 추정은 위유전자 인식 보인자 호출 (pseudogene-aware carrier calls), 창시자 하플로타입 붕괴 (founder-haplotype collapse), 조상 특이적 어세이 보정 (ancestry-specific assay calibration), 그리고 검사된 파트너로부터 전체 파트너 명단으로의 표준화 (standardization)에 의존합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
sample_id | collection | ancestry | family_history_tier |
| S_EUR_0001 | screening | EUR | 0 |
| S_EUR_0002 | screening | EUR | 0 |
| ... |
조상 및 스크리닝 맥락을 포함한 스크리닝 명단 성인.
단일 세포 RNA-seq (single-cell RNA-seq) 데이터에서 주변 RNA (ambient RNA) 및 기술적 오염 (technical contamination)을 제거한 후, 활성화된 단핵구 발현에 대한 유전자형 효과를 추정합니다.
주변 RNA는 타겟 발현과 활성화 상태를 호출하는 데 사용되는 마커 패널 모두에 영향을 미치므로, eQTL 모델링 이전에 보정이 이루어져야 합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
cell_id | donor | total_umi | HBB | IFI6 | ISG15 | LST1 | CXCL10 |
| D01_C001 | D01 | 1113 | 7 | 3 | 4 | 83 | 5 |
| D01_C002 | D01 | 1103 | 6 | 3 | 3 | 112 | 10 |
| ... |
마커 유전자 (marker genes), 오염 마커 (contamination markers), 그리고 타겟 유전자 (target gene)에 대한 세포별 UMI 카운트 (Per-cell UMI counts).
익명의 역위 유사 로커스 (inversion-like locus) 내부에 중첩된 구조적 하플로타입 (structural subhaplotype)이 보정된 임상 연관성 (calibrated clinical association) 및 신뢰할 수 있는 발현 지지 (credible expression support)를 갖는지 추정하십시오.
중첩된 복제수 신호 (nested copy-dosage signal)는 더 넓은 범위의 역위 방향 (inversion orientation)에 의해 혼란 (confounded)을 일으킬 수 있으므로, 복제수 보정 (dosage calibration), 발현 지지 (expression support), 그리고 임상 모델링 (clinical modeling)은 반드시 별개로 유지되어야 합니다.
모델에 공개된 프롬프트
모델에 제공된 파일
sample_id | case | age | age_band | sex | pc1 | pc2 | pc3 | ancestry_group | clinic_stratum | recruitment_stream |
| Q00012 | 1 | 50.45 | 50_64 | 0 | -1.01514 | -0.21032 | -0.08849 | EUR | tertiary | clinic |
| Q00028 | 0 | 57.39 | 50_64 | 0 | -1.25987 | -0.12498 | 0.2344 | EUR | regional | registry |
| ... |
전체 코호트 (cohort)에 대한 임상 및 공변량 (covariate) 데이터.
기대 접촉 배경 (expected-contact background)에서 낮은 매핑 가능성 (low-mappability) 및 구조적 변이 (structural-variant) 아티팩트를 제거한 후, 국소적인 환자-대조군 (case-control) Hi-C 루프 강도 (loop-strength) 차이를 정량화하십시오.
타겟 루프 (target loop)는 20 kb 해상도로 정의되지만, 낮은 매핑 가능성 접촉 (low-mappability contacts)과 환자 전용 SV 스트라이프 (case-only SV stripe)를 먼저 마스킹 (masked)하지 않으면 기대 접촉 모델 (expected-contact model)이 왜곡됩니다.
모델에 공개된 프롬프트
모델에 제공된 파일
bin_id | chrom | start | end | gc_content | mappability | re_sites |
| 0 | chr8 | 400000 | 420000 | 0.46199033821572594 | 0.9787574214704273 | 5 |
| 1 | chr8 | 420000 | 440000 | 0.5044124208534677 | 0.8901084943498397 | 5 |
| ... |
타겟 해상도 빈 (bin) 주석.
표현형 연관성 (phenotype association)을 테스트하기 전에, 8-파운더 재조합 집단 (eight-founder recombinant population)에서 파운더 혈통 (founder ancestry)을 재구성함으로써 1번 염색체의 양적 형질 유전자좌 (quantitative-trait locus)를 매핑하십시오.
가시적인 마커 데이터는 이중 대립유전자 (biallelic) 형식이지만, 생물학적 신호는 창시자 조상 (founder ancestry)입니다. 따라서 방어 가능한 분석을 수행하려면 창시자 상태 (founder state)를 재구성하고, 마커 방향 (marker orientation)을 확인하며, QTL을 배치 정렬된 교란 피크 (batch-aligned nuisance peak)로부터 분리해야 합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
marker_id | chr | pos_cM |
| m2_065 | 2 | 59.762431265596575 |
| m2_103 | 2 | 94.52656615104739 |
| ... |
마커 식별자 (Marker identifiers), 염색체 (chromosomes), 그리고 유전자 지도 위치 (genetic-map positions).
상호적 아티팩트 (reciprocal artifacts)와 염색체 특이적 라벨 반전 (chromosome-specific label inversion)을 수정한 후, 페이징된 국소 조상 트랙 (phased local-ancestry tracts)으로부터 부모 특이적 조상 비율 (parent-specific ancestry proportions)과 최근 혼혈 시기 (recent admixture timing)를 추론하십시오.
상호적 트랙 아티팩트 (reciprocal tract artifacts), 염색체 국소 라벨 반전 (chromosome-local label inversion), 또는 지도 분모 (map denominators)가 잘못 처리되면 조상 분율 (ancestry fractions)과 펄스 시기 (pulse times)가 모두 변합니다.
모델에 제공된 공개 프롬프트
모델에 제공된 파일
chrom | hap | start_morgan | end_morgan | anc | posterior | low_complexity_frac |
| chr1 | h1 | 0.03 | 0.505 | A | 0.985 | 0.08 |
| chr1 | h1 | 0.505 | 0.535 | B | 0.62 | 0.92 |
| ... |
좌표, 조상 라벨 (ancestry labels), 사후 확률 (posterior values), 그리고 QC 주석 (QC annotations)이 포함된 페이징된 국소 조상 트랙 (Phased local-ancestry tracts).
대립유전자 방향 (allele orientation), 방향성 오류 (directional error), 드리프트 (drift), 그리고 변화하는 인구 규모 (changing population size)를 고려하면서, 고대 대립유전자 빈도 시계열 (ancient allele-frequency time series)로부터 두 반수체 유전자좌 (haploid loci) 중 어느 쪽이 더 강력한 양성 선택 (positive selection)을 받고 있는지 추론하십시오.
노이즈가 있는 고대 궤적 (Noisy ancient trajectories)은 두 유전자좌가 동일한 파생 대립유전자 척도 (derived-allele scale)에 배치되고, 제공된 샘플 수준의 시퀀싱 오류 (sequencing-error) 값이 직접 모델링되기 전까지는 직접적으로 비교할 수 없습니다.
모델에 제공된 파일
generation | alt_reads | total_reads | seq_error | sample_year |
| 6 | 36 | 40 | 0.16 | -4500 |
| 12 | 34 | 45 | 0.16 | -4278 |
| ... |
유전자좌 A에 대한 리드 수 (Read-count) 시계열.
AI 자동 생성 콘텐츠
본 콘텐츠는 OpenAI Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기