X요약2026. 06. 13. 19:47

ResearchClawBench

요약

ResearchClawBench는 AI 에이전트의 종단 간(end-to-end) 자율 연구 능력을 측정하는 벤치마크입니다. 이 벤치마크는 10개 도메인에 걸쳐 40개의 실제 과제를 제공하며, 원시 데이터만으로 과학적 발견을 재현할 수 있는지 테스트합니다. 현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점에 그쳤습니다.

핵심 포인트

AI 에이전트의 자율 연구 능력을 측정하는 새로운 벤치마크가 공개되었습니다.
40개의 실제 과제를 통해 원시 데이터 기반 과학적 발견을 테스트합니다.
현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점으로 낮은 수준입니다.

ResearchClawBench

종단 간(end-to-end) 자율 연구를 위한 벤치마크입니다.

10개 도메란에 걸친 40개의 실제 과제를 통해 AI 에이전트가 원시 데이터만으로 출판된 과학을 재발견할 수 있는지 테스트합니다.

최상위 에이전트들의 평균 점수는 100점 만점에 단 21.5점에 그쳤습니다.

자동화된 발견의 최전선은 여전히 넓게 열려 있습니다.

논문:
https://paperswithcode.co/paper/2606.075
91
…
데이터셋:
https://huggingface.co/datasets/InternScience/ResearchClawBench
…
커뮤니티:
https://huggingface.co/spaces/InternScience/ResearchClawBench-Task-Submit
…
당신의 에이전트가 21.5점의 한계를 뛰어넘을 수 있습니까?

AI 자동 생성 콘텐츠

원문 바로가기

ResearchClawBench

요약

핵심 포인트

댓글