본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 13. 19:47

ResearchClawBench

요약

ResearchClawBench는 AI 에이전트의 종단 간(end-to-end) 자율 연구 능력을 측정하는 벤치마크입니다. 이 벤치마크는 10개 도메인에 걸쳐 40개의 실제 과제를 제공하며, 원시 데이터만으로 과학적 발견을 재현할 수 있는지 테스트합니다. 현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점에 그쳤습니다.

핵심 포인트

  • AI 에이전트의 자율 연구 능력을 측정하는 새로운 벤치마크가 공개되었습니다.
  • 40개의 실제 과제를 통해 원시 데이터 기반 과학적 발견을 테스트합니다.
  • 현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점으로 낮은 수준입니다.

ResearchClawBench

종단 간(end-to-end) 자율 연구를 위한 벤치마크입니다.

10개 도메란에 걸친 40개의 실제 과제를 통해 AI 에이전트가 원시 데이터만으로 출판된 과학을 재발견할 수 있는지 테스트합니다.

최상위 에이전트들의 평균 점수는 100점 만점에 단 21.5점에 그쳤습니다.

자동화된 발견의 최전선은 여전히 넓게 열려 있습니다.

논문:
https://paperswithcode.co/paper/2606.075
91

데이터셋:
https://huggingface.co/datasets/InternScience/ResearchClawBench

커뮤니티:
https://huggingface.co/spaces/InternScience/ResearchClawBench-Task-Submit

당신의 에이전트가 21.5점의 한계를 뛰어넘을 수 있습니까?

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0