Anthropic의 Claude Sonnet 5를 Box AI Complex Work Eval을 통해 테스트한 결과
요약
Anthropic의 Claude Sonnet 5를 Box AI Complex Work Eval 벤치마크로 테스트한 결과, 복잡한 기업 문서 작업에서 Sonnet 4.6을 상회하는 성능을 보였습니다. 특히 금융 실사, 비용 분석, 매출 분석 등 다단계 추론이 필요한 도메인에서 뛰어난 정확도를 입증했습니다.
핵심 포인트
- Claude Sonnet 5는 복잡한 비정형 데이터 처리에서 Sonnet 4.6보다 높은 성능을 기록함
- 금융 실사 시 대차대조표 분석 및 대출 약정 위반 포착 등 고도화된 추론 가능
- 스프레드시트의 오류(깨진 참조 셀)를 찾아내고 KPI 정의에 따른 정확한 비용 산출 수행
- Box AI Studio를 통해 고객이 맞춤형 에이전트를 구축할 수 있도록 지원 예정
우리는 Anthropic의 Claude Sonnet 5를 모델이 실제 기업 문서 작업을 엔드 투 엔드(end-to-end)로 수행하도록 하는 에이전트 벤치마크(agentic benchmark)인 Box AI Complex Work Eval을 통해 테스트해 왔습니다.
Sonnet 5는 복잡한 다단계 작업에서 프런티어급(frontier-class) 품질을 유지하며, 에너지(+4.7pp), 소매(+4.4pp), 전문 서비스(+2.6pp)와 같이 비정형 데이터(unstructured data)가 매우 복잡한 여러 핵심 기업 도메인에서 Sonnet 4.6을 앞섭니다.
Sonnet 5의 더 진보된 추론(reasoning) 능력을 파악할 수 있도록 Sonnet 4.6과 비교하여 승리한 몇 가지 사례를 소개합니다:
-
금융 실사(Financing due diligence): 가공되지 않은 대차대조표(balance sheet)로부터 기업의 유동성(liquidity) 및 레버리지 비율(leverage ratios)을 계산했습니다. 또한 소스 보고서 자체에 명시된 부채 비율(debt-to-equity figure)이 레버리지를 과소평가했음을 포착하여, 문서에서 인정한 것뿐만 아니라 세 가지 대출 약정(loan covenants) 모두가 위반되었음을 표시했습니다.
-
개보수 비용 분석(Overhaul cost analysis): 회사의 자체 KPI 정의에 따라 "총 비용(total cost)"의 범위를 설정했습니다. 가이드라인에서 모든 숫자를 단순히 합산하는 대신 별도로 추적하도록 명시했기 때문에, 생산 손실 비용(Lost Production Cost)을 정확하게 분리해 냈습니다. 또한 스프레드시트 내의 깨진 참조 셀(broken reference cell)을 찾아내어 처리했습니다.
-
SKU 매출 분석(SKU revenue analysis): 세분화된 판매 데이터에서 각 제품의 기여도를 올바른 하위 카테고리 분모(subcategory denominator)를 기준으로 계산하여, 카테고리 총계로 나누는 흔한 실수를 피했습니다. 또한 왜 반려동물(Pet) 카테고리의 SKU가 상위 9위 안에 들지 못했는지 그 이유를 표시했습니다.
Sonnet 5는 고객들이 맞춤형 에이전트(custom agents)를 구축할 수 있도록 곧 Box AI Studio에서 사용할 수 있게 될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기