arXiv논문2026. 06. 18. 12:29

TxBench-PP: 소분자 전임상 약리학에 대한 AI 에이전트 성능 분석

요약

소분자 전임상 약리학 분야의 AI 에이전트 성능을 평가하기 위한 새로운 벤치마크인 TxBench-PP를 소개합니다. 실험 데이터 기반의 추론 능력을 테스트하며, 현재 주요 모델들이 전임상 약리학 결정에서 여전히 한계를 보이고 있음을 입증했습니다.

핵심 포인트

전임상 약리학 특화 벤치마크 TxBench-PP 공개
단순 암기가 아닌 실제 실험 데이터 기반 추론 능력 검증
MoA, PD, 화합물-타겟 결합 등 100개의 평가 항목 포함
Claude Opus 및 GPT 모델 모두 안정적인 결정 도출에 실패

인공지능 (AI) 에이전트는 해석 및 의사결정 루프를 압축함으로써 신약 개발을 가속화할 것으로 기대되지만, 실제 배포를 위해서는 현실적인 프로그램 결정에 대한 신뢰할 수 있는 평가가 필요합니다. 우리는 소분자 전임상 약리학 (small-molecule preclinical pharmacology)을 위한 검증 가능한 벤치마크인 TherapeuticsBench Preclinical Pharmacology (TxBench-PP)를 소개합니다. 이는 신약 개발 단계 및 치료 양식 (therapeutic modalities) 전반에 걸친 광범위한 TherapeuticsBench 노력의 첫 번째 집중 영역입니다. TxBench-PP는 에이전트가 문헌에서 암기한 사실이 아니라 실제 실험 (assay) 데이터로부터 정확한 결론을 도출할 수 있는지 테스트합니다. 이 벤치마크는 작용 기전 (MoA) 및 약력학 (PD) 추론, 화합물-타겟 결합 (compound-target engagement), 인과적 타겟 검증 (causal target validation), 개발 가능성 및 안전성, 그리고 중개 효능 (translational efficacy)을 아우르며, 프로그램 단계, 실험 유형 및 작업 구조별로 인덱싱된 100개의 평가를 포함합니다. 에이전트는 현실적인 워크플로우 스냅샷을 받고, 코딩 환경에서 파일을 검사하며, 결정론적으로 채점되는 구조화된 답변을 반환합니다. 11개의 모델과 4,800개의 궤적 (trajectories)을 포함하는 16개의 모델 하네스 (model-harness) 구성 전반에 걸쳐, 어떤 시스템도 전임상 약리학 결정을 안정적으로 도출하지 못했습니다. 가장 강력한 구성인 Claude Opus 4.8 / Pi는 최종 시도의 59.3% (178/300; 95% CI, 51.1-67.6)를 통과했으며, GPT-5.5 / Pi가 55.3% (166/300; 47.0-63.6)로 그 뒤를 이었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TxBench-PP: 소분자 전임상 약리학에 대한 AI 에이전트 성능 분석

요약

핵심 포인트

댓글