arXiv논문2026. 06. 10. 11:36

ABC-Bench: 생물 보안을 위한 에이전트 기반 생물학적 역량 벤치마크

요약

LLM 에이전트의 생물 보안 위험을 측정하기 위한 새로운 벤치마크인 ABC-Bench를 소개합니다. 이 벤치마크는 DNA 설계 및 로봇 제어 등 이중 용도 과업을 통해 에이전트의 역량을 평가하며, 실험을 통해 실제 로봇 작동 성공을 검증했습니다.

핵심 포인트

생물 보안 위험 측정을 위한 ABC-Bench 벤치마크 제안
DNA 설계 및 액체 핸들링 로봇 제어 등 이중 용도 과업 포함
테스트된 에이전트들이 인간 전문가 베이스라인을 상회하는 성능 기록
OpenAI o4-mini-high 모델의 실제 로봇 제어 및 DNA 조립 성공 확인

대규모 언어 모델 (LLMs)은 문헌 합성부터 실험 데이터 해석에 이르기까지 생물학 연구와 관련된 역량을 빠르게 습득하고 있습니다. 점점 더 많은 LLM 에이전트 (LLM agents)가 이전에는 숙련된 인간 생물학자가 필요했던 인 실리코 (in silico) 생물학 과업을 수행할 수 있게 되었습니다. 이러한 신흥 AI 역량은 과학적 발견과 의생명 분야의 발전을 위한 새로운 기회를 제공하지만, 동시에 생물 보안 (biosecurity) 위험의 지형을 변화시키고 있습니다. 이를 해결하기 위해, 우리는 에이전트의 생물 보안 관련 역량을 측정하기 위한 일련의 과업 세트인 ABC-Bench (Agentic Bio-Capabilities Benchmark)를 소개합니다. ABC-Bench는 선한 의도의 과업과 이중 용도 (dual-use) 생물학 과업 모두에서 LLM 에이전트를 평가합니다: 액체 핸들링 로봇 (liquid handling robots)을 작동하기 위한 코드 작성, 인 비트로 (in vitro) 조립을 위한 DNA 단편 설계, 그리고 DNA 합성 스크리닝 회피 등이 포함됩니다. 이러한 과업들은 생물학적 지식과 소프트웨어 전문 지식의 결합을 요구합니다. 테스트된 모든 LLM 에이전트는 세 가지 과업 모두에서 중앙값 기준의 인간 전문가 베이스라인 (baseliner)보다 뛰어난 성능을 보였습니다. 에이전트들은 출판된 지식과 잘 문서화된 프로토콜을 활용하는 과업에서는 높은 성능을 보였으나, 새로운 생물정보학적 (bioinformatics) 추론을 요구하는 과업에서는 상대적으로 낮은 성능을 보였습니다. 세 차례의 웨트 랩 (wet-lab) 검증 실험을 통해, 우리는 OpenAI의 o4-mini-high가 생성한 스크립트가 OpenTrons 액체 핸들링 로봇에서 실행되었을 때 예상된 서열대로 DNA 조립에 성공했음을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ABC-Bench: 생물 보안을 위한 에이전트 기반 생물학적 역량 벤치마크

요약

핵심 포인트

댓글