EpiBench: 후성유전체 분석에 대한 AI 에이전트의 검증 가능한 평가
요약
본 기사는 단기 후성유전체 분석에 대한 AI 에이전트의 성능을 검증하는 벤치마크인 EpiBench를 소개합니다. 이 벤치마크는 CUT&Tag, ATAC-seq 등 다양한 워크플로우에서 에이전트가 과학적 결정을 내리는 능력을 평가하며, GPT-5.5 / Pi 등이 선두를 차지했습니다.
핵심 포인트
- EpiBench는 후성유전체 분석을 위한 검증 가능한 벤치마크입니다.
- 에이전트의 성능은 복잡하고 특화된 과학적 판단에서 어려움을 보였습니다.
- GPT-5.5 / Pi가 가장 높은 성공률(45.0%)을 기록하며 선두를 차지했습니다.
우리는 단기(short-horizon) 후성유전체 분석을 위한 검증 가능한 벤치마크인 EpiBench를 소개합니다. EpiBench는 에이전트가 현실적인 워크플로우 상태에서 잘 정의된 분석 결정을 내릴 수 있는지, 그리고 결정론적으로 채점 가능한 답변을 반환하는지를 평가합니다. 이 벤치마크에는 CUT&Tag/CUT&RUN, ATAC-seq, ChIP-seq, DNA 메틸화 워크플로우에 걸친 106개의 평가가 포함되어 있습니다. 16개의 모델-하네스 쌍에서 나온 5,088개의 유효한 궤적(trajectories) 전반에 걸쳐, 어떤 시스템도 과반수의 시도를 통과하지 못했습니다: GPT-5.5 / Pi가 45.0%(318회 시도 중 143회 성공; 95% 신뢰 구간 (CI), 36.3--53.7)로 선두를 차지했으며, 그 뒤를 GPT-5.5 / OpenAI Codex가 39.9%(318회 시도 중 127회 성공; 95% CI, 31.6--48.3)로 이었습니다. Claude Opus 4.8 Max / Pi와 GPT-5.4 / Pi는 각각 39.0%(318회 시도 중 124회 성공; 95% CI, 30.2--47.8 및 31.0--47.0)를 통과했습니다. 성능은 분석 유형에 따라 달라지며, 많은 실패한 실행에서도 여전히 정답의 일부가 포함되어 있었습니다. 에이전트들은 종종 올바른 파일을 찾아 유용한 중간 결과를 계산했지만, 작업이 더 깊고 분석 특화적인 과학적 판단을 요구할 때는 실패했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기