Anthropic의 Claude Sonnet 5를 Box AI Complex Work Eval을 통해 테스트한 결과

우리는 Anthropic의 Claude Sonnet 5를 모델이 실제 기업 문서 작업을 엔드 투 엔드(end-to-end)로 수행하도록 하는 에이전트 벤치마크(agentic benchmark)인 Box AI Complex Work Eval을 통해 테스트해 왔습니다.

Sonnet 5는 복잡한 다단계 작업에서 프런티어급(frontier-class) 품질을 유지하며, 에너지(+4.7pp), 소매(+4.4pp), 전문 서비스(+2.6pp)와 같이 비정형 데이터(unstructured data)가 매우 복잡한 여러 핵심 기업 도메인에서 Sonnet 4.6을 앞섭니다.

Sonnet 5의 더 진보된 추론(reasoning) 능력을 파악할 수 있도록 Sonnet 4.6과 비교하여 승리한 몇 가지 사례를 소개합니다:

금융 실사(Financing due diligence): 가공되지 않은 대차대조표(balance sheet)로부터 기업의 유동성(liquidity) 및 레버리지 비율(leverage ratios)을 계산했습니다. 또한 소스 보고서 자체에 명시된 부채 비율(debt-to-equity figure)이 레버리지를 과소평가했음을 포착하여, 문서에서 인정한 것뿐만 아니라 세 가지 대출 약정(loan covenants) 모두가 위반되었음을 표시했습니다.
개보수 비용 분석(Overhaul cost analysis): 회사의 자체 KPI 정의에 따라 "총 비용(total cost)"의 범위를 설정했습니다. 가이드라인에서 모든 숫자를 단순히 합산하는 대신 별도로 추적하도록 명시했기 때문에, 생산 손실 비용(Lost Production Cost)을 정확하게 분리해 냈습니다. 또한 스프레드시트 내의 깨진 참조 셀(broken reference cell)을 찾아내어 처리했습니다.
SKU 매출 분석(SKU revenue analysis): 세분화된 판매 데이터에서 각 제품의 기여도를 올바른 하위 카테고리 분모(subcategory denominator)를 기준으로 계산하여, 카테고리 총계로 나누는 흔한 실수를 피했습니다. 또한 왜 반려동물(Pet) 카테고리의 SKU가 상위 9위 안에 들지 못했는지 그 이유를 표시했습니다.

Sonnet 5는 고객들이 맞춤형 에이전트(custom agents)를 구축할 수 있도록 곧 Box AI Studio에서 사용할 수 있게 될 예정입니다.

Insights

Anthropic의 Claude Sonnet 5를 Box AI Complex Work Eval을 통해 테스트한 결과

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기