AcademiClaw: 학생이 AI 에이전트를 위한 과제를 설정할 때
요약
본 기술 기사는 기존 AI 평가 벤치마크가 보조적인 수준의 과제에만 초점을 맞추어 온 한계를 지적하며, 대학원생들의 실제 학술 워크플로우에서 발생하는 복잡하고 장기적인 문제들을 다루는 새로운 이진어 벤치마크인 AcademiClaw를 소개합니다. 이 벤치마크는 수학, 언어학부터 GPU 기반 강화 학습 및 시스템 디버깅까지 25개 이상의 전문 분야에 걸쳐 80개의 복잡한 과제를 포함하며, 격리된 환경과 다차원 평가 기준을 통해 AI 에이전트의 실제 학술 역량을 엄격하게 측정합니다. 실험 결과, 최첨단 모델들조차도 높은 통과율을 달성하지 못했으며, 이는 향후 더 유능하고 범용적인 AI 에이전트를 개발하는 데 중요한 진단 신호를 제공할 것으로 기대됩니다.
핵심 포인트
- AcademiClaw는 기존 벤치마크의 한계를 극복하기 위해 실제 학술 워크플로우 기반의 복잡한 장기 과제(long-horizon tasks)를 다룹니다.
- 이 벤치마크는 수학, 언어학부터 GPU 집약적 RL 및 시스템 디버깅까지 25개 이상의 광범위한 전문 분야를 포괄합니다.
- 과제 수행은 격리된 Docker 환경에서 이루어지며, 6가지 보완적인 기법을 결합한 다차원 루브릭으로 평가됩니다.
- 최첨단 모델들의 성능 분석 결과, 높은 통과율 달성이 어려움을 보여 AI 에이전트의 실제 학술 역량에 대한 심층적인 진단 정보를 제공합니다.
OpenClaw 생태계 내 벤치마크는迄今为止 exclusively assistant-level tasks 를 평가해 왔으며, OpenClaw 의 academic-level capabilities 은 거의 검토되지 않았습니다. 우리는 대학원생들의 실제 학술 워크플로우 (homework, research projects, competitions, personal projects) 에서 현재 AI 에이전트가 효과적으로 해결하지 못한다고 판단한 80 개의 복잡한 장기적 과제 (long-horizon tasks) 를 직접 소싱하여 AcademiClaw 라는 이진어 벤치마크를 소개합니다. 230 명의 학생 제출 후보자를 엄격한 전문가 검토 과정을 통해 선정한 최종 과제 집합은 25 개 이상의 전문 분야를 포괄하며, olympiad-level mathematics and linguistics problems 에서 GPU-intensive reinforcement learning 과 full-stack system debugging 까지 다양하고, 16 개의 과제는 CUDA GPU 실행을 요구합니다. 각 과제는 격리된 Docker sandbox 에서 실행되며, 6 가지 보완적인 기법을 결합한 다차원 rubrics 에 따라 과제 완성을 기준으로 점수를 매깁니다. 또한 독립적인 5 카테고리 안전 감사 (safety audit) 가 추가적인 행동 분석을 제공합니다. 6 개의 최첨단 모델에 대한 실험은 가장 좋은 결과도 55% 의 통과율만 달성함을 보여줍니다. 추가 분석은 과제 분야 간 능력의 경계, 모델 간의 다른 행동 전략, 그리고 토큰 소비량과 출력 품질 사이의 괴리를 발견하며, 집계 지표가 드러내지 못하는 세분화된 진단 신호를 제공합니다. 우리는 AcademiClaw 와 오픈소스 데이터 및 코드가 OpenClaw 커뮤니티에 유용한 자원이 될 수 있으며, 실제 세계의 학술 요구의 전체 폭에 걸쳐 더 능력 있고 다용도한 에이전트를 위한 진전을 이끄는 데 도움이 되기를 바랍니다. 모든 데이터와 코드는 https://github.com/GAIR-NLP/AcademiClaw 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기