EnterpriseClawBench: 실제 업무 세션을 활용한 에이전트 벤치마킹
요약
실제 기업 업무 세션을 기반으로 구축된 에이전트 벤치마크인 EnterpriseClawBench를 소개합니다. 852개의 재현 가능한 태스크를 통해 기업용 에이전트의 성능을 다각도로 평가할 수 있는 프로토콜을 제공합니다.
핵심 포인트
- 실제 업무 세션 아카이브를 활용한 852개의 재현 가능한 태스크 구성
- 데이터 보안을 위해 데이터 대신 평가 프로토콜을 공개하는 방식 채택
- 단일 점수 대신 비용, 실행 시간, 결과물 품질 등 다각적 지표 보고 권장
- 최고 성능 설정에서도 0.663이라는 낮은 점수를 기록하며 평가의 난이도 입증
기업용 에이전트(Enterprise agents)는 점점 더 워크스페이스(workspaces) 내부에서 작동하고 있습니다. 이들은 이기종 파일(heterogeneous files)을 읽고, 도구(tools)를 호출하며, 비즈니스 결과물(business artifacts)을 전달합니다. 우리는 독점적인 실제 에이전트 세션(agent sessions)으로부터 구축된 기업용 에이전트 벤치마크인 EnterpriseClawBench를 소개합니다. 방대한 업무 세션 아카이브에서 시작하여, EnterpriseClawBench는 복구된 피스처(fixtures), 재작성된 프롬프트(prompts), 역할 클래스(role classes), 기술 서브클래스(skill subclasses), 엄격한 규칙(hard rules), 그리고 의미론적 루브릭(semantic rubrics)이 각각 쌍을 이루는 852개의 재현 가능한 태스크(tasks)를 생성합니다. 해당 세션들은 기업 내부 콘텐츠를 포함하고 있기 때문에, 우리는 벤치마크 데이터를 공개하지 않습니다. 대신, 우리의 재사용 가능한 기여는 구축 및 평가 프로토콜(evaluation protocol)입니다. EnterpriseClawBench에서 가장 우수한 설정은 0.663에 불과했습니다 (GPT-5.5를 사용한 Codex). 이러한 결과는 기업용 에이전트 평가가 성능을 단일 점수로 축약하기보다는, 하네스-모델(harness--model) 조합, 결과물 전달(artifact delivery), 시각적 품질(visual quality), 비용(cost), 실행 시간(runtime), 그리고 기술 전이(skill-transfer) 동작을 보고해야 함을 보여줍니다. 코드: https://github.com/FrontisAI/EnterpriseClawBench
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기