
GeneBench-Pro 소개
요약
계산 생물학 분야에서 AI 에이전트의 고차원적 판단 능력을 측정하기 위한 연구용 벤치마크인 GeneBench-Pro를 소개합니다. 유전체학 및 정량 생물학 등 10개 도메인을 아우르며, 단순 지식 회상을 넘어 연구적 안목을 평가하는 데 중점을 둡니다.
핵심 포인트
- 계산 생물학 내 AI 에이전트의 판단 및 의사결정 능력 측정
- 모호함 처리, 가설 수정, 분석 경로 선택 등 '연구적 안목' 평가
- 10개 도메인 및 21개 하위 도메인에 걸친 129개 문제 구성
- 단일 정답 경로가 아닌 현실적인 복잡성과 반복적 실험 과정 반영
GeneBench-Pro 소개
AI 에이전트가 계산 생물학 (computational biology) 분야에서 모호함을 탐색하고 중대한 판단을 내리는 능력을 측정하는 연구 수준의 벤치마크 (benchmark)입니다.
과학적 데이터는 지침과 함께 제공되는 경우가 드뭅니다. 연구자들은 특정 패턴이 생물학적 현상을 반영하는지 아니면 노이즈 (noise)인지, 데이터가 제기된 질문을 뒷받침할 수 있는지, 그리고 각 결과에 따라 다음 단계에서 무엇을 해야 하는지를 결정해야 합니다. AI 에이전트는 점점 더 복잡한 분석을 수행할 수 있는 능력을 갖추고 있지만, 실제 과학 연구는 단순히 사실을 회상하거나 미리 정의된 워크플로 (workflow)를 따르는 것뿐만 아니라 이러한 고차원적인 판단을 내리는 것에도 의존합니다.
오늘 우리는 GeneBench-Pro를 소개합니다. 이는 모델이 실제 계산 생물학에서 요구되는 판단 집약적인 분석을 처리할 수 있는지 테스트하기 위한 도전적인 연구 수준의 벤치마크 (benchmark)입니다. 이는 GeneBench(새 창에서 열기)를 확장하여 유전체학 (genomics), 정량 생물학 (quantitative biology), 중개 의학 (translational medicine) 전반에 걸쳐 더 어렵고 현실적인 과제들을 다루며, 계산 생물학 연구의 복잡성, 반복적 특성 및 모호성을 포착합니다.
현재까지 실제 계산 연구를 어렵게 만드는 시스템 수준의 판단 (judgment calls)에 대한 설득력 있는 평가는 거의 없었습니다. 여기에는 모호함 처리, 가설 수정, 올바른 분석 경로 선택, 그리고 결과가 의사결정에 적합한 시점을 파악하는 것 등이 포함됩니다. 이러한 기술들은 공식화하기 어렵기 때문에 엄격하게 평가하기도 어렵지만, 이러한 약점들이 AI의 전반적인 성능을 점점 더 제한하고 있습니다.
GeneBench-Pro는 이러한 고차원적 능력들을 정밀하게 측정하도록 설계되었습니다. GeneBench-Pro 내에서, 우리는 "연구적 안목 (research taste)"을 분석을 형성하는 판단 과정의 사슬로 정의합니다. 즉, 데이터가 어떤 질문을 뒷받침할 수 있는지, 조기 진단 결과가 모델이나 추정 대상 (estimand)을 어떻게 변화시켜야 하는지, 그리고 언제 초기 계획을 수정해야 하는지 등을 결정하는 과정입니다. 각 GeneBench-Pro 문제는 모델에게 현실적이고 복잡한 데이터셋, 간략한 실험적 맥락, 그리고 하위 의사결정과 연결된 목표 추정 대상 (estimand)을 제공합니다. 올바른 답을 내기 위해 모델은 데이터를 탐색하고, 적절한 분석 접근 방식을 선택하며, 반복적인 실험 과정을 수행하고, 최종 답변을 제공해야 합니다.
생물학 분야에서는 데이터 생성 비용(예: 게놈 시퀀싱)이 급격히 감소했으며, [일부 연구자들은 이제 제한 요인이 샘플 수집이 아니라 하위 단계의 계산 및 분석이라고 주장합니다](opens in a new window). GeneBench-Pro는 광범위한 계산 생물학 (computational biology) 설정과 방법론을 아우르는 129개의 질문을 통해, 이러한 병목 현상을 해결하는 과정에서의 진전을 평가하도록 구축되었습니다.
도메인 아틀라스 (Domain Atlas): 10개 도메인 및 21개 하위 도메인에 걸친 129개 문제
위의 점을 클릭하면 벤치마크 문제에 대해 자세히 알아볼 수 있습니다.
GeneBench-Pro는 또한 일반적인 벤치마크의 실패 사례를 피하도록 설계되었습니다. 많은 장기적 (long-horizon) 생물학 벤치마크들은 복잡한 과거 데이터셋을 바탕으로 다단계 질문을 구성하는데, 이 경우 분석 과정에서 단 하나의 정답 경로가 존재하지 않을 수 있습니다. 어떤 에이전트는 방어 가능한 하나의 절단값 (cutoff)을 선택할 수 있는 반면, 다른 에이전트는 그와 마찬가지로 방어 가능한 다른 옵션을 선택할 수 있으며, 이는 모델 성능의 근본적인 차이보다는 벤치마크 제작자가 내린 임의적인 선택을 반영하게 됩니다. 반대의 경우도 발생할 수 있습니다. 만약 문제가 수치적으로 너무 둔감하다면, 에이전트가 분석에서 근본적인 오류를 범하더라도 여전히 통과 가능한 결과를 만들어낼 수 있습니다.
이러한 실패 모드 (failure modes)를 방지하기 위해, 각 GeneBench-Pro 문제는 합성적으로 (synthetically) 구축되었습니다. 즉, 우리는 전체적인 인과 구조 (causal structure)를 알고 있으며 데이터 생성 과정 (data-generating process)을 직접 시뮬레이션합니다. 이를 통해 각 문제의 복잡도를 조정하고, 주관적인 분석 선택의 합리적인 차이가 여전히 수용 가능한 수치적 결과로 이어지도록 보장하며, (절제 연구 (ablation studies)를 통해) 그럴듯하지만 잘못된 분석이 실패하는지 확인할 수 있습니다. 그 후, 우리는 상세한 추적 분석 (trace analyses)을 통해 문제 초안을 감사하여 정보 누출 (information leakage) 및 의도하지 않은 해결 경로가 있는지 점검합니다. 이를 통해 정답을 맞히는 것이 지름길을 이용하거나 저자의 임의적인 선호도에 맞추는 것이 아니라, 올로바른 분석 경로를 선택하는 데 달려 있다는 확신을 가질 수 있습니다.
우리는 129개의 GeneBench-Pro 질문 중 82개를 대학원생, 박사후 연구원, 산업계 과학자, 교수진을 포함한 외부 도메인 전문가들에게 보냈습니다. 검토자들은 각 문제의 현실성, 목표 정답의 식별 가능성, 그리고 방법론 및 추정량 (estimators)의 적절성을 평가했습니다. 피드백은 문제를 개선하는 데 사용되었습니다.
"제가 검토한 문제들은 숙련된 지도교수의 반복적인 피드백 없이는 대학원생이 완료하기에 매우 도전적이었을 것입니다. 데이터에는 기술적 문제와 품질 관리 (quality control) 이슈가 포함되어 있어, 성공적으로 완료하려면 잠재적인 함정을 인식한 채 신중하고 성찰적인 데이터 분석이 필요했습니다. 단순히 기성 방법 (off-the-shelf method)을 깨끗하고 잘 정제된 데이터에 적용하는 수준이 아니었습니다."
"현재 모델들이 처음부터 끝까지 독립적인 분석을 안정적으로 수행할 수는 없을지라도, GeneBench-Pro 문제에서 우수한 성능을 보이는 모델은 연구자들이 올바른 워크플로우 (workflows)를 결정하고 데이터를 탐색하는 데 분명히 도움을 줄 수 있을 것입니다. 이는 연구의 속도, 철저함, 그리고 재현성 (reproducibility)을 크게 향상시킬 수 있음을 보여줍니다."
각 GeneBench-Pro 문제는 독립적인 과학적 분석 단위입니다. 에이전트(Agents)는 짧은 프롬프트, 데이터 파일, 그리고 Python, 과학 계산 라이브러리(scientific computing libraries), 그리고 PLINK 2.0과 같은 기본적인 유전체학 패키지(genomics packages)를 포함한 표준 생물정보학 스택(bioinformatics stack)이 갖춰진 격리된 작업 공간(isolated workspace)에 대한 접근 권한을 부여받습니다 (단, 문제 수행에 도메인 특화 도구가 반드시 필요한 것은 아닙니다).
구조적 변이 가이드 기반 종양 치료 이익-위험 결정 (Structural variant-guided tumor therapy benefit-risk decision)
우리는 전체 데이터 생성 프로세스를 제어하기 때문에, 알려진 타겟에 대해 결정론적으로 정확성을 등급화할 수 있으며, 이를 통해 표준 루브릭 기반 평가(rubric-based evaluation)에서 발견되는 모델 선택의 가변성(model-choice variability)과 장황함 효과(verbosity effects)를 피할 수 있습니다.
각 문제에는 의도된 분석 구조, 첨부된 데이터 파일, 상세한 다페이지 사례 연구(case study), 그리고 전문가 검토 결과(expert review outcomes)를 포함한 풍부한 메타데이터가 함께 제공됩니다. 우리는 10개의 대표적인 GeneBench-Pro 질문을 Hugging Face(새 창에서 열기)에 완전히 오픈 소스로 공개하며, 이를 탐색할 수 있는 __대화형 웹 인터페이스(interactive web interface)__도 제공합니다. 마지막으로, 가까운 시일 내에 독립적인 제3자 벤치마킹을 위해 50개의 질문으로 구성된 하위 집합을 Artificial Analysis(새 창에서 열기)에 제공할 예정입니다.
우리의 가장 강력한 모델인 GPT-5.6 Sol은 최고 추론 레벨에서 28.7%의 통과율(pass rate)을 달성했습니다 (Pro 모드 활성화 시 31.5%). 이는 우리가 원래의 GeneBench를 구축하기 시작했을 때와 비교하면 급격한 상승입니다. 당시 우리의 가장 뛰어난 프론트리어 모델(frontier model)이었던 GPT-5는 5% 미만의 점수를 기록했습니다. 이 벤치마크에서의 진전은 프론트리어 모델들이 다소 무형적인 시스템 수준의 과학적 추론(systems-level scientific reasoning) 영역에서도 빠르게 발전하고 있음을 시사합니다. 현재의 속도라면 이 벤치마크는 올해 말까지 포화 상태에 이를 수 있습니다.
또한 결과는 테스트 시간 계산량(test-time compute) 확장(scaling)의 영향력을 보여줍니다. 가장 낮은 추론 레벨에서 GPT-5.6 Sol은 한 자릿수의 통과율만을 달성합니다. 그러나 가장 높은 추론 레벨에서 GPT-5.6 Sol은 GPT-5.2보다 약 2/3의 토큰(tokens)만을 사용하면서도 거의 6배 더 많은 문제를 해결합니다.
모델 제품군 간의 비교를 통해, GPT 모델들이 정량적 불확실성 (quantitative uncertainty) 하에서의 고차원적 과학적 추론 (scientific reasoning) 분야에서 가장 강력한 시스템 중 하나임을 알 수 있습니다. GPT-5.6, GPT-5.5와 GLM 5.2와 같은 선도적인 오픈 소스 (open-source) 모델 간의 성능 격차는 __코딩 벤치마크 (coding benchmarks)__에서 외삽(extrapolating)했을 때 예상했던 것보다 훨씬 더 큽니다. 이는 오픈 소스 모델들이 광범위한 추론 능력보다는 코딩에 더 특화되어 있음을 나타냅니다.
우리는 개발 과정에서 문제를 평가하고 강화하기 위해 최첨단 (frontier) GPT 모델들을 사용했습니다. 따라서 GeneBench-Pro가 다른 모델 제품군에 비해 GPT 모델에 편향되어 있을 수도 있다고 의심했습니다. 그러나 경쟁 모델들은 출시 시점에 해당 GPT 모델의 성능을 겨우 따라잡는 수준이었으며, 상당 부분 미치지 못하는 경향을 보였습니다.
GeneBench-Pro 문제의 난이도를 고려할 때, GPT-5.6 Sol (Pro)에서 나타난 최대 31.5%의 이러한 평가 결과는 매우 놀랍습니다. 한 설문 조사에서 우리의 검토자들은 전형적인 GeneBench-Pro 문제를 완료하는 데 인간 전문가가 약 20~40시간이 소요될 것으로 추정했습니다. 시간당 200달러라는 보수적인 비용을 적용하면, 단일 문제에 대한 인간의 노동 비용은 수천 달러에 달합니다. 현재의 AI 에이전트 (AI agents)는 여전히 인간 전문가를 대체하기에는 신뢰도가 낮지만, 문제당 추론 비용 (inference costs)이 불과 몇 달러에 불과하다는 점을 고려하면 비용 격차는 매우 큽니다. 이는 현재의 역량으로 부분적인 자동화만 이루어지더라도 상당한 경제적, 과학적 가치를 창출할 수 있음을 의미합니다.
“벤치마크는 다양한 생물학적 질문에서 영감을 얻었지만, … 실제적인 도전 과제는 이러한 발견들에 대한 탐색적 데이터 분석 (Exploratory Data Analysis, EDA)과 추론에서 발생합니다. 즉, 패턴과 인공물 (Artifacts)을 식별하고, 데이터를 제외할지 또는 조정할지를 결정하는 과정입니다. 이는 실제 생물학적 데이터셋의 무질서한 특성과 유사합니다. 이러한 평가들을 검토해 보면, 에이전트 기반의 과학적 문제 해결 (Agent-based scientific problem solving)을 위해 명확한 솔버 계약 (Solver contracts)이 얼마나 중요한지 알 수 있습니다. 프롬프트 (Prompt)의 문구 표현이나 작업 명세 (Task specification)가 달라지는 것만으로도 허용 가능한 분석의 범위가 크게 달라질 수 있습니다.”
“저는 [질문들을] 대체로 마음에 들었습니다. 질문들은 주로 다음과 같은 요소들이 혼합된 경향이 있었습니다: (1) 고대 DNA의 C>T 편향 (C>T bias)과 같은 해당 주제에 대한 필수 지식, (2) 조상 교체 (Ancestry swaps)와 같은 데이터 불일치, (3) 작업에 적합한 분석 도구에 대한 지식과 이를 구현하는 방법. 대부분의 에이전트들은 (2)번 항목에서 실패하는 것으로 보였습니다. 그들은 데이터 문제에 대해 충분히 주의를 기울이지 않습니다. 이는 아마도 현재 모델들의 약점을 보여주는 것일 수 있습니다. 그리고 많은 생물학적 데이터는 불규칙성을 가지고 있습니다.”
그럼에도 불구하고, 최첨단 모델 (Frontier models)들이 여전히 이러한 문제의 3분의 1 미만만을 해결한다는 사실은 개선의 여지가 상당히 크다는 것을 보여줍니다. 모델들은 까다로운 문제들에 대해 부분적인 진전을 보일 수는 있지만, 추론 루프 (Inferential loop)를 완성하는 데는 어려움을 겪습니다. 이러한 실패 패턴은 인간 전문가와 초보자 사이의 대조를 반영합니다. 전문가는 자신의 경험을 사용하여 문제를 구조화하고 접근 방식을 조정하는 반면, 초보자는 관찰은 수행하지만 이를 문제의 더 넓은 맥락으로 통합하는 데 어려움을 겪습니다.
문제: 시변 치료 (Time-varying treatment)를 동반한 약물유전체학적 사건 발생 시간 (Pharmacogenomic time-to-event) 반응
GPT-5.5 패턴
GPT-5.6 Sol 패턴
완벽에 가까운 성능을 달성하려면, 진보를 신뢰성 있게 측정하는 동시에 모델이 여전히 실패하는 지점을 식별할 수 있는 평가가 필요합니다. GeneBench-Pro와 같은 벤치마크는 막연한 역량 부족을 우리가 진단하고 개선할 수 있는 구체적인 대상으로 전환하는 데 도움을 줄 수 있습니다.
만약 에이전트(agents)가 이러한 유형의 분석을 안정적으로 자동화할 수 있다면, 과학적 발견을 크게 가속화할 수 있을 것입니다. 유전적 근거(genetic evidence)는 이미 타겟 우선순위 지정(target prioritization) 및 중개 연구(translational follow-up)의 핵심이며, 이는 유전적 뒷받침이 있는 메커니즘이 승인된 치료제로 이어질 가능성이 훨씬 높기 때문입니다.
한편, 시퀀싱(sequencing) 비용은 급락했으며, 바이오뱅크(biobank) 규모의 데이터셋은 이제 분자적, 표현형적(phenotypic), 그리고 건강 기록 정보를 전례 없는 폭으로 연결하고 있습니다. 제한 요인은 데이터 생성에서 정보를 실행 가능한 통찰(actionable insights)로 전환하는 단계로 이동하고 있습니다. 현재 인간 전문가 팀이 수행하는 분석을 일관되게 수행할 수 있는 모델은 가설 분류(hypothesis triage), 타겟 후속 연구(target follow-up), 그리고 데이터 생성과 의사결정 사이의 반복 주기(iteration cycle)를 가속화함으로써 산업 연구를 변화시킬 수 있습니다.
GeneBench-Pro는 숙련된 전문가들이 보유한 훌륭한 과학적 판단력에 포함된 더 추상적인 기술들을 평가하기 위한 초기 노력을 나타냅니다. 이러한 기술을 통해 전문가들은 가장 유망한 초기 분석을 직관적으로 파악하고 식별하며, 데이터가 초기 가설과 모순될 때 사고를 반복하고 수정하며, 하위 단계의 임상적, 학술적 또는 비즈니스적 의사결정의 근거가 될 수 있는 결론에 도달할 수 있습니다.
우리는 모델의 능력이 발전함에 따라, 단순히 책에 나오는 지식이나 일상적인 분석 수행 능력을 테스트하는 벤치마크를 넘어, 이러한 더 높은 수준의 추상화 단계에서 모델의 능력을 조사하는 벤치마크가 점점 더 유용해질 것으로 기대합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 OpenAI Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기