arXiv논문2026. 06. 03. 12:12

RealClawBench: 실제 개발자-에이전트 세션으로부터 구축된 라이브 OpenClaw 벤치마크

요약

실제 개발자와 에이전트 간의 세션을 반영한 새로운 벤치마크 프레임워크인 RealClawBench를 소개합니다. 재구성된 실행 환경과 결정론적 검증 메커니즘을 통해 실제 워크로드의 복잡성을 자동화된 평가로 전환합니다.

핵심 포인트

실제 OpenClaw 세션 기반의 라이브 벤치마크 구축
재구성된 실행 환경과 결정론적 검증 스코어러 도입
281개의 실행 가능한 작업이 포함된 데이터셋 공개
최신 모델들의 실제 개발 워크로드 해결률이 65.8%에 불과함을 입증

에이전트 벤치마크 (Agent benchmarks)는 사용자가 배포된 에이전트에게 실제로 요청하는 작업을 반영해야 하지만, 기존의 벤치마크들은 실제 개발자-에이전트 세션의 핵심적인 현실성 속성을 놓치는 경우가 많습니다. 우리는 배포된 에이전트 사용의 분포, 다양성 및 실제 세계의 난이도를 포착하기 위해 실제 OpenClaw 세션으로부터 구축된 라이브 벤치마크 프레임워크인 RealClawBench를 소개합니다. 실제 사용자의 요청은 로컬 실행 환경 (local execution environments)에 의존하는 경우가 많고, 암시적이거나 불충분하게 명시된 의도 (implicit or underspecified intent)를 포함하며, 까다로운 검증 (nontrivial verification)을 요구하기 때문에 벤치마크화하기가 어렵습니다. RealClawBench는 재구성된 실행 환경 (reconstructed execution environments)과 결정론적 검증 가능 스코어러 (deterministic verifiable scorers)라는 두 가지 핵심 메커니즘을 통해 이러한 과제들을 해결하며, 이를 통해 실제 세션을 재현 가능하고 자동으로 점수가 매겨지는 작업으로 변환합니다. 결과물로 공개된 데이터셋은 소스 분포를 보존하면서 훨씬 더 큰 실제 세션 풀에서 샘플링된 281개의 실행 가능한 작업을 포함하고 있으며, 최종 대 소스 간의 최대 Jensen-Shannon 발산 (Jensen-Shannon divergence)은 0.0448입니다. 14개의 최신 모델을 평가한 결과, 가장 우수한 시스템조차 작업의 65.8%만을 해결하는 것으로 나타났으며, 이는 현실적인 개발자-에이전트 워크로드에서 상당한 개선 여지가 있음을 보여줍니다. 실제 배포된 세션을 통제된 평가 인스턴스로 전환함으로써, RealClawBench는 실제 사용 환경에서 에이전트의 능력을 더 잘 측정할 수 있는 벤치마크를 향한 실질적인 경로를 제공합니다. 코드는 다음에서 확인할 수 있습니다: https://anonymous.4open.science/r/real-claw-bench-582B.

AI 자동 생성 콘텐츠

원문 바로가기

RealClawBench: 실제 개발자-에이전트 세션으로부터 구축된 라이브 OpenClaw 벤치마크

요약

핵심 포인트

댓글