LifeSciBench 소개

에이전트형 AI (Agentic AI) 시스템은 과학적 과업을 수행하는 능력이 점점 더 향상되고 있습니다. 하지만 생명 과학 (life science) 연구자들에게 이들이 얼마나 유용한지는 실제 연구의 복잡성을 얼마나 잘 다루느냐에 달려 있습니다. 실제 연구는 단일 사실 회상 질문이나 깔끔한 예측 문제와 같은 형태인 경우가 드뭅니다. 연구자들은 불완전한 증거를 해석하고, 상충하는 결과를 조정하며, 까다로운 실험을 설계하고, 분석법 (assays)의 문제를 해결하며, 중개 위험 (translational risk)을 평가하고, 불확실성 속에서 다음 단계를 결정합니다.

현재의 벤치마크 (benchmarks)는 이러한 역량을 충분히 포착하지 못하고 있습니다. 많은 생명 과학 평가들은 좁은 영역이나 고립된 기술에 집중하며, 그 결과 구조화된 질문 형식과 깔끔한 참조 답변을 가진 질문들을 생성합니다. 이러한 방식은 가치가 있지만, 모델이 연구 수준의 광범위한 작업 전반에 걸쳐 기여할 수 있는지 여부를 진정으로 평가하는 데는 실패하는 경우가 많습니다.

우리는 이러한 격차를 줄이기 위해 LifeSciBench를 설계했습니다. 모든 과업은 바이오테크 (biotech) 및 제약 (pharmaceutical) 환경에서 신약 개발 프로그램을 발전시킨 직접적인 경험과 박사 (Ph.D.) 수준의 교육을 받은 현직 생명 과학자들의 판단을 바탕으로 합니다.

LifeSciBench는 7개의 워크플로 (workflows)와 7개의 생물학적 도메인 (biological domains)에 걸쳐 전문가가 작성한 750개의 과업을 포함합니다.

1,062

과업 아티팩트 (Task artifacts)

173

과학자 기여자 (Scientist contributors)

19,020

루브릭 기준 (Rubric criteria)

453

전문가 검토자 (Expert reviewers)

LifeSciBench가 측정하는 것

LifeSciBench는 AI 시스템이 단순히 생물학 질문에 답하는 것을 넘어, 현실적인 생명 과학 연구 과업을 지원할 수 있는지 측정합니다. 벤치마크 분류 체계 (taxonomy)를 정의하기 위해, 우리는 현직 생명 과학자들을 대상으로 응용 연구 환경에서 가장 자주 사용하는 워크플로에 대해 설문 조사를 실시했습니다. 그 후, 응답을 증거 처리 (evidence handling), 분석 (analysis), 설계 및 최적화 (design and optimization), 과학적 추론 (scientific reasoning), 검증 및 운영 (validation and operations), 중개 (translation), 그리고 과학적 커뮤니케이션 (scientific communication)의 7가지 반복되는 범주로 그룹화했습니다.

각 태스크는 과학자가 지식이 풍부한 협력자에게 요청할 법한 방식, 즉 과학적 프롬프트 (scientific prompt), 관련 문맥(context) 또는 산출물(artifacts), 그리고 자유 응답(free-response) 답변의 구조로 이루어져 있습니다. 전문가가 작성한 루브릭 (rubrics)은 모델이 특정 문제에 대해 과학자가 기대하는 적절한 수준의 세부 사항, 정당화 (justification), 주의 사항 (caveats) 및 형식을 갖추어 올바른 답을 생성할 수 있는지 평가합니다.

데이터셋 구축 (Dataset construction)

LifeSciBench는 과학적 추론 (scientific reasoning)과 더불어, 실제 과학 현장에서 사용되는 데 필요한 정의가 덜 명확하고 실무적인 기술들을 함께 평가합니다. 이 벤치마크의 태스크들은 모델이 증거 해석, 도메인에 기반한 판단 (domain-grounded judgments), 그리고 전문 리뷰어에게 유용할 결론 전달과 같은 현실적인 연구 문제들을 해결하도록 요구합니다. 또한 많은 태스크가 프롬프트 텍스트에만 의존하기보다, 불확실성을 처리하고 지원 데이터 파일 (supporting data files)을 바탕으로 추론할 것을 요구합니다.

이 벤치마크는 생명 과학 업무의 복잡성을 반영하도록 설계되었습니다. 전체 태스크의 79%가 다단계의 추론 또는 의사 결정 단계를 요구하며, 태스크당 평균 4단계의 과정을 거칩니다. LifeSciBench는 그림 (figures), PDF, 표 (tables), 서열 파일 (sequence files), 구조 또는 화학 파일 (structure or chemical files), 그리고 웹 참조 (web references)를 아우르는 1,062개의 첨부 산출물 (artifacts)을 포함하고 있습니다. 태스크의 절반 이상(53%)은 모델이 최소 하나 이상의 산출물로부터 정보를 해석하거나 합성할 것을 요구합니다.

태스크는 다양한 생명 과학 (life science) 분야에 걸친 173명의 전문가 과학자들에 의해 생성되었습니다. 각 과학자는 박사 (Ph.D.) 수준의 교육을 받았으며, 생명공학 (biotechnology) 또는 제약 산업 (pharmaceutical industry)에서의 경험을 보유하고 있습니다. 태스크는 승인되기 전까지 필요한 만큼의 수정 사이클을 거칠 수 있으며, 라운드 수에 대한 고정된 제한은 없습니다. 승인된 태스크는 평균 6회의 자기 주도적 자동 검토 (automated review) 사이클을 거쳤으며, 최소 2라운드의 전문가 검토 (expert reviews)를 완료했습니다. 검토는 검증 가능한 정답 또는 강력한 전문가 합의에 기반하였으며, 관련 분야 검토자들 사이의 일치도는 최소 90% 이상이었습니다. 이 프로세스는 승인된 태스크가 과학적 근거를 갖추고, 채점할 수 있을 만큼 명확하며, 응용 연구 (applied research)를 대표할 수 있도록 보장하는 데 도움을 주었습니다.

채점 및 루브릭 (rubric) 세부 분석

LifeSciBench 태스크는 기대되는 응답을 구체적인 과학적 주장 (scientific claims), 계산 (calculations), 결정 (decisions), 정당화 (justifications) 등으로 세분화하는 상세하고 태스크별로 특화된 루브릭 (rubric)을 통해 채점됩니다. 벤치마크 전반에 걸쳐 전문가가 개발한 루브릭에는 과학적 정확성과 연구 결정에 대한 유용성을 모두 평가하기 위한 19,020개의 기준이 포함되어 있으며, 이는 태스크당 평균 25개에 해당합니다.

이러한 설계는 실제 과학적 작업이 평가되는 방식을 반영합니다. 많은 생명 과학 태스크는 최종 정답만을 확인하는 것으로는 채점할 수 없습니다. 예를 들어, 응답이 올바른 상위 수준의 결론에 도달하더라도 핵심적인 분석법 (assay)의 한계를 간과하거나 매우 중대한 생물학적 뉘앙스 (biological nuance)를 선제적으로 제시하지 못한다면 불완전한 것으로 판단될 수 있습니다. 반대로, 부분적인 응답이라 할지라도 태스크를 완전히 해결하지 못했을 경우에도 고품질의 추론을 포함할 수 있습니다.

세밀한 루브릭은 이러한 뉘앙스를 포착합니다. LifeSciBench는 최종 정답의 정확성뿐만 아니라, 모델이 과학적으로 타당하고 운영상 유용한 방식으로 정답에 도달하는지를 평가합니다.

논문, 도표, 표 및 실험 기록으로부터 과학적 증거를 추출, 조정 및 감사 (auditing) 합니다.

평가 예시 (Eval Example)

우리는 MCK 프로모터로부터 138 kDa 구조체를 발현하는 Duchenne 근이영양증(DMD)용 AAV9 기반 micro-dystrophin 유전자 치료제인 AAV9-microDys-X에 대한 FDA Type B 미팅을 준비하고 있습니다. 우리는 우리의 현재 패키지가 임상적 이익을 예측할 가능성이 합리적으로 높은 대리 표지자(surrogate endpoint)로서의 micro-dystrophin 발현에 대해 가속 승인(accelerated approval)을 정말로 뒷받침하는지에 대해 냉철한 비판을 받고자 합니다.

연구 맥락: DMD 및 out-of-frame rod-domain 결실이 확인된 4~7세의 보행 가능한 소년 12명을 대상으로 한 공개 라벨(open-label) 임상 1b/2상. 패키지 구성은 다음과 같습니다:

치료 전 외측광근(vastus lateralis) 생검: N-말단 액틴 결합 도메인에 대한 MANEX1A를 사용한 정량적 Western blot 분석 결과, 건강한 대조군의 0~3% 수준의 dystrophin 검출.
치료 12주 후 반대측 외측광근 생검: 동일한 Western blot을 통해 Coomassie 염색으로 정규화(normalized)한 결과, 평균 micro-dystrophin은 건강한 대조군의 38%(범위 18~61%)임.
치료 후 면역형광법(immunofluorescence): 다클론 항-dystrophin C-말단 항체를 사용하여 섬유의 75~95%에서 근초(sarcolemmal) 신호 확인.
48주 기능 평가: 외부에서 발표된 자연사 등록 코호트(natural-history registry cohort)의 -0.6점 변화와 비교하여, 기저치 대비 평균 NSAA 변화량은 +1.4점임 (unpaired t-test 결과 p = 0.03).
안전성: 8/12명의 환자에서 스테로이드 테이퍼링(steroid taper)으로 관리 가능한 일시적인 간 효소 수치 상승(transaminitis) 발생; 1건의 심근염(myocarditis) 해소; 사망 사례 없음.
생체 분포/지속성(Biodistribution/persistence): 12주 차에 근육에서 AAV9 벡터 게놈이 핵당 평균 2.3 벡터 게놈으로 검출됨.
적격성: 기저치 anti-AAV9 중화 항체 없음(titer <1:400) 및 exon-44 결실 없음.

이 패키지를 항목별로 압박 테스트(pressure-test)해 주십시오. FDA 또는 회의적인 검토자가 제시된 증거가 우리의 결론을 뒷받침하지 못한다고 말할 부분은 어디이며, 가능하다면 이러한 격차를 메우기 위해 어떤 추가 데이터, 분석 또는 설계 변경이 필요할까요? 명시되지 않은 사항에 대해서는, 2025년 12월 31일까지 알려진 다른 임상 등급의 138 kDa micro-dystrophin 프로그램 및 관련 임상 시험의 정보를 적용한다고 가정하십시오.

후보 응답 (Candidate Response)

결론 (Bottom line): 제시된 내용에 따르면, 이 패키지는 임상적 이익을 예측할 가능성이 합리적으로 높은 대리 표지자 (surrogate endpoint)로서 micro-dystrophin 발현을 통한 가속 승인 (accelerated approval)을 뒷받침하기에 충분히 강력하지 않습니다. 회의적인 FDA 검토관이라면 바이오마커 (biomarker), 기능성 (functional), 지속성 (durability), 안전성 (safety) 및 일반화 가능성 (generalizability)에 대한 증거가 실질적으로 미흡하다고 판단할 가능성이 높습니다.

패키지 항목	주요 실패 모드 (Key Failure Mode)	필요 사항
Western blot 정량화 (quantification)	MANEX1A는 내인성 full-length dystrophin과 micro-dystrophin transgene이 공유하는 N-terminal epitope에 결합하므로, 해당 분석법은 transgene과 잔류/revertant dystrophin을 명확하게 구분하지 못합니다. 또한, 건강한 full-length dystrophin 표준물질을 기준으로 138 kDa micro-dystrophin을 정량화하는 것 역시 유효하지 않습니다.	재조합 (recombinant) micro-dystrophin 표준물질을 사용하고, 표적 질량 분석법 (targeted mass spectrometry) 또는 transgene-특이적/epitope-특이적 분석법과 같이 transgene과 내인성 dystrophin을 구분할 수 있는 직교 방법 (orthogonal method)을 사용해야 합니다.
면역형광법 (Immunofluorescence)	C-terminal 다클론 항체 (polyclonal antibody)는 138 kDa construct에 C-terminal 도메인이 결여되어 있어 적합하지 않습니다. 많은 DMD 환자들은 revertant fiber를 가지고 있으며, revertant dystrophin은 C-terminal epitope를 유지할 수 있습니다. Revertant fiber는 연령에 따라 클론적으로 확장될 수 있어, 특히 연령이 높은 소년들의 경우 IF 신호에 편향 (bias)을 줄 수 있습니다.	transgene에는 존재하지만 revertant dystrophin에는 존재하지 않는 epitope에 대한 항체를 사용하여 IF를 재실시해야 합니다. transgene-양성 fiber를 revertant fiber와 별도로 정량화해야 합니다.
대리 표지자 (Surrogate endpoint) 타당성	이 패키지는 단백질 양과 임상적 기능을 혼동하고 있습니다. micro-dystrophin은 구조적으로 절단(truncated)되어 있기 때문에, "건강한 대조군의 단백질 질량 중 38%"가 정상적인 dystrophin 기능의 38%를 의미하지는 않습니다.	발현을 대리 표지자로 취급하기 전에, micro-dystrophin 질량 백분율, 근세포막 (sarcolemmal) 국소화, 하위 기능적 복구 (downstream functional restoration) 및 임상적 이익 사이의 관계를 경험적으로 검증해야 합니다.

생검 설계 (Biopsy design) | 치료 전후의 반대측 외측광근 (contralateral vastus lateralis) 생검은 좌우 및 근육 내 공간적 변동성 (spatial variability)을 유발합니다. 질병 진행 및 섬유지방 변성 (fibro-fatty replacement) 또한 총 단백질 정규화 (total-protein-normalized) 신호를 변화시킬 수 있습니다. | 일관된 해부학적 지표를 사용하여 생검 부위를 표준화하고, 근육 특이적 단백질로 정규화하며, 섬유지방 구성을 병행하여 측정하십시오. |
NSAA 비교군/통계 (NSAA comparator/statistics) | 외부 자연사 코호트 (natural-history cohort)는 무작위 대조군 (randomized concurrent control)이 아닙니다. 임상시험 적격성, 지원 케어, 참여 효과, 기저 NSAA, 스테로이드 요법, 연령 및 엑손 (exon) 유형은 모두 비교 결과에 편향을 줄 수 있습니다. 비쌍체 t-검정 (unpaired t-test)만으로는 충분하지 않습니다. 또한, +1.4 NSAA 변화는 이 연령대의 재검사 변동성 (test-retest variability) 범위 내에 있습니다. | 무작위 대조군 위약 대조 연구 (randomized concurrent placebo-controlled study)를 수행하거나, 최소한 기저 NSAA, 연령, 스테로이드 요법, 엑손 유형 및 기타 교란 변수 (confounders)를 고려한 조정 분석 (adjusted analyses)을 사용하십시오. |
연령 구간 교란 (Age-window confounding) | 4~7세 남아는 치료받지 않은 보행 가능 DMD 환자가 기능 저하가 지배하기 전에 운동 기능을 얻을 수 있는 발달 단계에 있습니다. 48주간의 NSAA 변화에는 발달에 따른 이득, 질병 진행, 그리고 가능한 치료 효과가 혼재되어 있습니다. | 연령 층화 (age stratification)를 포함한 무작위 대조 연구를 사용하여 발달 궤적과 치료 효과를 분리하십시오. |
이전 임상 선례 (Prior clinical precedent) | 공개 라벨 (Open-label) 마이크로 디스트로핀 (micro-dystrophin) 기능 신호는 확증적 이익을 안정적으로 예측하지 못했습니다. 발표된 선례에는 마이크로 디스트로핀 유전자 치료 확증 임상시험이 공개 라벨 NSAA 개선 사항을 재현하는 데 실패한 사례가 포함됩니다. | 공개 라벨 NSAA 변화를 결정적인 근거로 신뢰하지 마십시오. 통제된 기능적 증거를 요구하십시오. |
구조적 한계 (Structural limits of the construct) | 138 kDa 구조체는 nNOS 결합 부위를 포함하는 스펙트린 반복 서열 (spectrin repeats) R16/17을 결실시킵니다. nNOS 모집 (recruitment)의 상실은 운동 중 기능적 교감신경 용해 (functional sympatholysis) 및 허혈 보호 (ischemia protection)를 손상시킬 수 있으며, 이는 발현 수준과 무관하게 회복에 대한 기계적 한계 (mechanistic ceiling)를 만듭니다.

| 이 특정 구성체(construct)가 관련 디스트로핀 관련 복합체 기능(dystrophin-associated complex function), nNOS 국소화(localization), 운동 생리학(exercise physiology) 및 근육 보호(muscle protection)를 회복시키는지 보여주는 기계적 연구(mechanistic studies)를 추가하십시오. |
| AAV 지속성 (AAV durability) | 12주 차의 벡터 게놈(vector genomes)은 지속적인 발현을 확립하지 못합니다. AAV9 게놈은 대부분 비통합 에피솜(non-integrating episomes)이며 시간이 지남에 따라 감소할 수 있습니다. 벡터 게놈의 지속성(persistence)은 지속적인 단백질 발현과 동일하지 않습니다. | 12주 이후의 종단적 외래 유전자 단백질 발현(longitudinal transgene protein expression) 및 기능적 바이오마커 지속성을 측정하십시오. |
| 면역/안전성 프로필 (Immune/safety profile) | 12명의 환자 중 8명에서 나타난 간 효소 수치 상승(transaminitis)은 AAV로 형질 전환된 세포에 대한 면역 반응과 일치하지만, 그 기전은 확립되지 않았습니다. AAV9의 심장 친화성(cardiac tropism)을 고려할 때, 1건의 심근염(myocarditis) 사례는 우려되는 부분입니다. | 더 심층적인 면역 모니터링, 간/심장 안전성 특성 분석(safety characterization), 그리고 강화된 심장 추적 관찰을 제공하십시오. |
| 환자 선정/일반화 가능성 (Patient selection/generalizability) | 항-AAV9 중화 항체(anti-AAV9 neutralizing-antibody) 양성 환자를 제외하는 것은 일반화 가능성을 제한합니다. 엑손-44(exon-44) 결실 환자를 제외하는 것은 해당 DMD 하위 그룹에 대한 적용성을 제한합니다. n=12는 더 넓은 DMD 인구 집단 전반에 걸쳐 안전성과 효능을 특성화하기에는 너무 작은 규모입니다. | 가능한 경우 자격 요건을 확대하거나, 결과를 광범위한 승인 지원에 사용하기 전에 항체 상태, 유전자형/엑손 클래스, 연령 및 기저 기능(baseline function)에 따른 층화 분석(stratified analyses)을 사전에 지정하십시오. |