본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 24. 19:15

NatureBench

요약

Nature 패밀리 출판물 기반의 90개 과학 태스크를 평가하는 NatureBench를 소개합니다. 최첨단 코딩 에이전트들이 기존 SOTA 결과와 비교 테스트되었으며, 에이전트의 문제 해결 능력을 검증합니다.

핵심 포인트

  • 6개 과학 분야의 90개 태스크로 구성된 벤치마크
  • 최첨단 코딩 에이전트의 SOTA 성능 비교 테스트
  • 가장 강력한 에이전트도 단 17.8%의 태스크에서만 SOTA를 능가함

6개의 과학 분야에 걸친 Nature 패밀리 출판물 기반의 90개 태스크.

최첨단 코딩 에이전트 (Frontier coding agents)들이 이미 발표된 SOTA (State-of-the-Art, 최고 수준) 결과들과 비교 테스트됩니다.

이들은 새로운 해결책을 발견할 수 있을까요, 아니면 기존의 것들을 재현할 뿐일까요?

가장 강력한 에이전트조차 단 17.8%의 태스크에서만 SOTA를 능가했습니다. https://t.co/Kxbmeh4dXJ

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0