NatureBench

요약

Nature 패밀리 출판물 기반의 90개 과학 태스크를 평가하는 NatureBench를 소개합니다. 최첨단 코딩 에이전트들이 기존 SOTA 결과와 비교 테스트되었으며, 에이전트의 문제 해결 능력을 검증합니다.

6개의 과학 분야에 걸친 Nature 패밀리 출판물 기반의 90개 태스크.

최첨단 코딩 에이전트 (Frontier coding agents)들이 이미 발표된 SOTA (State-of-the-Art, 최고 수준) 결과들과 비교 테스트됩니다.

이들은 새로운 해결책을 발견할 수 있을까요, 아니면 기존의 것들을 재현할 뿐일까요?

가장 강력한 에이전트조차 단 17.8%의 태스크에서만 SOTA를 능가했습니다. https://t.co/Kxbmeh4dXJ

AI 자동 생성 콘텐츠