arXiv논문2026. 06. 23. 13:16

EnterpriseClawBench: 실제 업무 세션을 활용한 에이전트 벤치마킹

요약

실제 기업 업무 세션을 기반으로 구축된 에이전트 벤치마크인 EnterpriseClawBench를 소개합니다. 852개의 재현 가능한 태스크를 통해 기업용 에이전트의 성능을 다각도로 평가할 수 있는 프로토콜을 제공합니다.

핵심 포인트

실제 업무 세션 아카이브를 활용한 852개의 재현 가능한 태스크 구성
데이터 보안을 위해 데이터 대신 평가 프로토콜을 공개하는 방식 채택
단일 점수 대신 비용, 실행 시간, 결과물 품질 등 다각적 지표 보고 권장
최고 성능 설정에서도 0.663이라는 낮은 점수를 기록하며 평가의 난이도 입증

기업용 에이전트(Enterprise agents)는 점점 더 워크스페이스(workspaces) 내부에서 작동하고 있습니다. 이들은 이기종 파일(heterogeneous files)을 읽고, 도구(tools)를 호출하며, 비즈니스 결과물(business artifacts)을 전달합니다. 우리는 독점적인 실제 에이전트 세션(agent sessions)으로부터 구축된 기업용 에이전트 벤치마크인 EnterpriseClawBench를 소개합니다. 방대한 업무 세션 아카이브에서 시작하여, EnterpriseClawBench는 복구된 피스처(fixtures), 재작성된 프롬프트(prompts), 역할 클래스(role classes), 기술 서브클래스(skill subclasses), 엄격한 규칙(hard rules), 그리고 의미론적 루브릭(semantic rubrics)이 각각 쌍을 이루는 852개의 재현 가능한 태스크(tasks)를 생성합니다. 해당 세션들은 기업 내부 콘텐츠를 포함하고 있기 때문에, 우리는 벤치마크 데이터를 공개하지 않습니다. 대신, 우리의 재사용 가능한 기여는 구축 및 평가 프로토콜(evaluation protocol)입니다. EnterpriseClawBench에서 가장 우수한 설정은 0.663에 불과했습니다 (GPT-5.5를 사용한 Codex). 이러한 결과는 기업용 에이전트 평가가 성능을 단일 점수로 축약하기보다는, 하네스-모델(harness--model) 조합, 결과물 전달(artifact delivery), 시각적 품질(visual quality), 비용(cost), 실행 시간(runtime), 그리고 기술 전이(skill-transfer) 동작을 보고해야 함을 보여줍니다. 코드: https://github.com/FrontisAI/EnterpriseClawBench

AI 자동 생성 콘텐츠

원문 바로가기

EnterpriseClawBench: 실제 업무 세션을 활용한 에이전트 벤치마킹

요약

핵심 포인트

댓글