본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 23. 20:11

EnterpriseClawBench

요약

실제 업무 세션 데이터를 기반으로 기업용 코딩 에이전트의 성능을 평가하는 EnterpriseClawBench 벤치마크를 소개합니다. 결과물 전달, 비용, 실행 시간, 기술 전이 측면에서 모델 시스템을 종합적으로 평가합니다.

핵심 포인트

  • 기업용 코딩 에이전트 전용 벤치마크 공개
  • 결과물 전달, 비용, 실행 시간, 기술 전이 평가
  • 최적 설정에서도 0.663이라는 낮은 성능 기록

EnterpriseClawBench

실제 업무 세션에서 추출한 기업용 코딩 에이전트 (enterprise coding agents)를 위한 벤치마크입니다.

이 벤치마크는 결과물 전달 (artifact delivery), 비용 (cost), 실행 시간 (runtime), 그리고 기술 전이 (skill transfer) 측면에서 완전한 하네스-모델 (harness-model) 시스템을 평가합니다.

가장 최적의 설정조차 0.663에 불과합니다. https://t.co/MKjTvVZidS

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0