arXiv논문2026. 05. 28. 12:09

AutoScientists: 장기적인 과학적 실험을 위한 자가 조직화 에이전트 팀

요약

AutoScientists는 장기적인 과학 실험을 위해 탈중앙화된 방식으로 자가 조직화되는 AI 에이전트 팀 프레임워크입니다. 공유된 실험 상태를 바탕으로 가설을 검토하고 성공과 실패를 공유하며, 생물 의학 및 언어 모델 최적화 분야에서 기존 에이전트보다 뛰어난 성능을 입증했습니다.

핵심 포인트

탈중앙화된 에이전트 팀을 통한 자가 조직화 실험 구조
실험 상태 공유 및 비판적 검토를 통한 중복 탐색 방지
BioML-Bench 및 ProteinGym 등에서 SOTA 성능 달성
GPT 학습 최적화 및 단백질 적합도 예측 분야의 탁월한 효율성

과학 연구는 가설 생성, 실험 설계, 실행, 그리고 수정의 반복적인 사이클을 통해 진행됩니다. AI 에이전트(AI agents)는 이 과정의 일부를 자동화할 수 있지만, 기존 방식들은 일반적으로 단일 연구 궤적을 따르거나 고정된 목표를 가진 중앙 계획가(central planner)를 통해 조정됩니다. 그 결과, 이들은 병렬적인 탐색을 지속하거나, 실험적 증거가 변함에 따라 적응하거나, 장기적인 실험 과정에서 실패한 방향에 대한 지식을 보존하는 데 어려움을 겪습니다. 우리는 장기적인 계산 과학 실험(computational scientific experimentation)을 위한 탈중앙화된 AI 에이전트 팀인 AutoScientists를 소개합니다. 에이전트들은 공유된 실험 상태(experimental state)를 해석하고, 유망한 가설을 중심으로 팀을 자가 조직화하며, 실험적 컴퓨팅 자원을 사용하기 전에 제안 내용을 비판적으로 검토하고, 성공과 실패를 공유하여 중복된 탐색을 줄입니다. 동일한 실험 예산 조건 하에서, AutoScientists는 생물 의학 머신러닝 (biomedical machine learning), 언어 모델 학습 최적화 (language-model training optimization), 단백질 적합도 예측 (protein fitness prediction) 분야에서 기존 AI 에이전트들보다 뛰어난 성능을 보여줍니다. 생물 의학 영상, 단백질 공학, 단일 세포 오믹스 (single-cell omics), 신약 개발을 아우르는 BioML-Bench에서 AutoScientists는 24개 작업에 걸쳐 평균 리더보드 백분위수 74.4%를 달성하였으며, 가장 강력한 AI 에이전트보다 +8.33% 향상된 성능을 보였습니다. GPT 학습 최적화에서 AutoScientists는 Autoresearch보다 1.9배 빠르게 목표 검증 bits-per-byte에 도달하며, 단일 에이전트 방식이 아무것도 찾아내지 못한 시작 챔피언 상태로부터 지속적으로 개선 사항을 발견했습니다 (수용된 개선 사항 7건 vs 0건). ProteinGym 적합도 예측에서 AutoScientists는 현재의 최첨단 (state-of-the-art) 모델보다 Spearman 상관계수(Spearman correlation) 기준 +12.5% 향상된 ACE2-Spike 결합 방법을 발견했습니다. 217개의 모든 ProteinGym 분석법에 수정 없이 적용했을 때, 동일한 방법은 이전의 최첨단 기술보다 +6.5% (Spearman 상관계수) 향상된 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AutoScientists: 장기적인 과학적 실험을 위한 자가 조직화 에이전트 팀

요약

핵심 포인트

댓글