
Claw-SWE-Bench
요약
Claw-SWE-Bench는 OpenClaw 스타일 에이전트를 실제 코딩 작업에서 평가하기 위한 최초의 다국어 벤치마크입니다. 또한, Microsoft Research가 소개한 Arbor는 영속적인 가설 트리 정제 방식을 통해 장기 탐색을 누적 학습으로 전환하는 자율 연구 에이전트입니다.
핵심 포인트
- Claw-SWE-Bench: OpenClaw 스타일 에이전트를 평가하는 다국어 벤치마크.
- Arbor: 영속적인 가설 트리 정제를 사용하는 범용 자율 연구 에이전트.
- Arbor는 Codex와 Claude Code를 능가하며 높은 성능을 보임.
OpenClaw 스타일의 에이전트 하네스를 실제 코딩 작업에서 평가하기 위한 최초의 다국어 벤치마크입니다. 8개 언어에 걸쳐 350개의 인스턴스를 포함하며, 공정한 비교를 위해 통합 어댑터 프로토콜을 사용합니다.
논문:
https://paperswithcode.co/paper/2606.123
44
…
데이터셋:
https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench
…
코드:
https://github.com/opensquilla/claw-swe-bench
…
Microsoft Research가 Arbor를 소개합니다.
Arbor는 영속적인 가설 트리 정제(persistent hypothesis-tree refinement)를 사용하여 장기 탐색을 누적 학습으로 전환하는 범용 자율 연구 에이전트입니다. 이 에이전트는 6가지 연구 작업에서 Codex와 Claude Code를 능가하며, MLE-Bench Lite에서 86%의 Any-Medal을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기