
NatureBench
요약
Nature 패밀리 출판물 기반의 90개 과학 태스크를 평가하는 NatureBench를 소개합니다. 최첨단 코딩 에이전트들이 기존 SOTA 결과와 비교 테스트되었으며, 에이전트의 문제 해결 능력을 검증합니다.
핵심 포인트
- 6개 과학 분야의 90개 태스크로 구성된 벤치마크
- 최첨단 코딩 에이전트의 SOTA 성능 비교 테스트
- 가장 강력한 에이전트도 단 17.8%의 태스크에서만 SOTA를 능가함
6개의 과학 분야에 걸친 Nature 패밀리 출판물 기반의 90개 태스크.
최첨단 코딩 에이전트 (Frontier coding agents)들이 이미 발표된 SOTA (State-of-the-Art, 최고 수준) 결과들과 비교 테스트됩니다.
이들은 새로운 해결책을 발견할 수 있을까요, 아니면 기존의 것들을 재현할 뿐일까요?
가장 강력한 에이전트조차 단 17.8%의 태스크에서만 SOTA를 능가했습니다. https://t.co/Kxbmeh4dXJ
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기