NatureBench: 코딩 에이전트가 Nature 계열 논문의 발표된 SOTA를 따라잡을 수 있는가?
요약
Nature 계열 논문의 태스크를 기반으로 AI 코딩 에이전트의 과학적 발견 능력을 평가하는 NatureBench를 소개합니다. 실험 결과, 최신 에이전트들도 실제 SOTA 성능을 따라잡는 데 한계가 있음을 보여줍니다.
핵심 포인트
- Nature 계열 논문 기반 90개 태스크의 학제 간 벤치마크 공개
- NatureGym을 통한 표준화된 컨테이너 환경 구축으로 신뢰성 확보
- 프런티어 에이전트의 SOTA 달성률은 17.8%로 매우 낮음
- 에이전트의 성공은 과학적 발명보다 방법론적 변환에 의존함
- 실패 원인은 태스크 오해보다 잘못된 방법론과 컴퓨팅 예산 부족
우리는 동료 검토(peer-reviewed)를 거친 Nature 계열 출판물에서 추출한 90개의 태스크로 구성된 학제 간 벤치마크인 NatureBench를 소개합니다. 이는 AI 코딩 에이전트가 단순한 재현(reproduction)을 넘어 실제 과학적 문제에 대한 발견(discovery) 단계로 나아갈 수 있는지 평가하기 위해 설계되었습니다. NatureBench는 NatureGym을 기반으로 구축되었으며, NatureGym은 소스 논문으로부터 태스크별로 표준화된 컨테이너화된 환경(containerized environment)을 구축하는 자동화된 파이프라인으로, 이전의 연구 대상 에이전트 벤치마크의 신뢰성을 제한했던 환경 파편화(environment-fragmentation) 문제를 해결합니다. 웹 검색이 금지된 엄격한 프로토콜 하에서 10개의 프런티어 에이전트 구성을 평가한 결과, 가장 강력한 모델조차 g>0.1 기준에서 단 17.8%의 태스크에서만 SOTA(State-of-the-Art)를 능가하는 것으로 나타났습니다. 방법론적 경로(method pathways) 분석에 따르면, 에이전트들은 진정한 과학적 발명(scientific invention)을 통해서가 아니라, 과학적 태스크를 익숙한 지도 학습 예측(supervised prediction) 문제로 변환하는 방법론적 번역(methodological translation)을 통해 주로 성공합니다. 실패의 주된 원인은 태스크에 대한 오해보다는 잘못된 방법론 선택과 불충분한 컴퓨팅 예산(compute budget)에 의한 것이었습니다. 우리는 벤치마크, NatureGym 파이프라인, 그리고 유지 관리자 측의 재현이 포함된 공개 리더보드를 공개합니다. 코드: https://github.com/FrontisAI/NatureBench
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기