
ResearchClawBench
요약
ResearchClawBench는 AI 에이전트의 종단 간(end-to-end) 자율 연구 능력을 측정하는 벤치마크입니다. 이 벤치마크는 10개 도메인에 걸쳐 40개의 실제 과제를 제공하며, 원시 데이터만으로 과학적 발견을 재현할 수 있는지 테스트합니다. 현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점에 그쳤습니다.
핵심 포인트
- AI 에이전트의 자율 연구 능력을 측정하는 새로운 벤치마크가 공개되었습니다.
- 40개의 실제 과제를 통해 원시 데이터 기반 과학적 발견을 테스트합니다.
- 현재 최상위 에이전트들의 평균 점수는 100점 만점에 21.5점으로 낮은 수준입니다.
ResearchClawBench
종단 간(end-to-end) 자율 연구를 위한 벤치마크입니다.
10개 도메란에 걸친 40개의 실제 과제를 통해 AI 에이전트가 원시 데이터만으로 출판된 과학을 재발견할 수 있는지 테스트합니다.
최상위 에이전트들의 평균 점수는 100점 만점에 단 21.5점에 그쳤습니다.
자동화된 발견의 최전선은 여전히 넓게 열려 있습니다.
논문:
https://paperswithcode.co/paper/2606.075
91
…
데이터셋:
https://huggingface.co/datasets/InternScience/ResearchClawBench
…
커뮤니티:
https://huggingface.co/spaces/InternScience/ResearchClawBench-Task-Submit
…
당신의 에이전트가 21.5점의 한계를 뛰어넘을 수 있습니까?
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기