arXiv논문2026. 06. 15. 07:26

Claw-SWE-Bench: 코딩 작업에서의 OpenClaw 스타일 에이전트 하네스 평가를 위한 벤치마크

요약

범용 코딩 에이전트의 성능을 공정하게 평가하기 위한 새로운 벤치마크인 Claw-SWE-Bench를 소개합니다. 이 벤치마크는 다양한 에이전트 하네스(claws)를 동일한 조건에서 비교할 수 있도록 설계되었으며, 어댑터 설계와 모델 선택이 코딩 작업 성능에 미치는 영향을 분석합니다.

핵심 포인트

에이전트 하네스 간의 공정한 비교를 위한 다국어 벤치마크 제안
어댑터 설계가 OpenClaw 스타일 에이전트의 성능에 결정적임을 입증
모델 선택과 하네스 선택이 각각 Pass@1 점수에 큰 영향을 미침을 확인
비용 효율적인 검증을 위한 Claw-SWE-Bench Lite 서브셋 제공

OpenClaw와 같은 범용 에이전트(General-purpose agents)는 자율적인 도구 사용자로서 점점 더 많이 사용되고 있지만, 이들의 코딩 능력은 SWE-bench 하에서 측정하기 어렵습니다. 범용 에이전트는 점수 산정에 필요한 깨끗한 Docker 워크스페이스, 패치(patch), 그리고 예측 계약(prediction contract)을 스스로 충족하지 못하기 때문입니다. 우리는 고정된 프롬프트(prompt), 실행 예산(runtime budget), 워크스페이스 계약, 패치 추출 절차 및 평가자를 포함한 공정한 설정 하에서 이질적인 에이전트 하네스(agent harnesses), 즉 claws를 비교할 수 있게 해주는 다국어 SWE-bench 스타일의 벤치마크이자 어댑터 프로토콜인 Claw-SWE-Bench를 소개합니다. 전체 벤치마크는 future-commit 정제 과정을 거친 SWE-bench-Multilingual 및 SWE-bench-Verified-Mini에서 추출한 8개 언어 및 43개 저장소(repository)에 걸친 350개의 GitHub 이슈 해결 사례를 포함합니다. 또한 빠른 검증을 위해 Claw-SWE-Bench Lite를 출시하였으며, 이는 17개의 보정 컬럼(calibration columns)에 대해 비용 인식(cost-aware) 및 순위 인식(rank-aware) 절차를 통해 선택된 80개 사례의 서브셋(subset)입니다. 전체 벤치마크에서 최소한의 direct-diff 어댑터를 사용한 OpenClaw는 Pass@1 점수가 $19.1%$에 불과했으나, 동일한 GLM 5.1 백본(backbone)을 사용한 전체 어댑터는 $73.4%$에 도달했습니다. 이는 OpenClaw 스타일의 하네스가 코딩 작업을 효과적으로 수행할 수 있도록 하는 데 어댑터 설계가 필수적임을 보여줍니다. OpenClaw $\times$ 9개 모델 스윕(sweep)과 5개 claw $\times$ 2개 모델 스윕을 통해 분석한 결과, 모델 선택은 Pass@1을 $29.4$ pp 변화시켰고, 모델이 고정된 상태에서 하네스 선택은 $27.4$ pp를 변화시켰습니다. 유사한 정확도를 가진 시스템이라도 총 API 비용은 크게 다를 수 있습니다. 따라서 Claw-SWE-Bench는 하네스와 비용 산정을 SWE 스타일의 코딩 에이전트 평가의 핵심 축(first-class axes)으로 취급하며, 재현 가능한 비교를 위한 전체 벤치마크와 저비용 참조 세트를 모두 제공합니다. 데이터는 https://github.com/opensquilla/claw-swe-bench 및 https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Claw-SWE-Bench: 코딩 작업에서의 OpenClaw 스타일 에이전트 하네스 평가를 위한 벤치마크

요약

핵심 포인트

댓글