ITBench-AA: 에이전트 기반 기업 IT 작업을 위한 최초의 벤치마크에서 프런티어 모델들이 50% 미만의 점수를 기록하다 — Artificial Analysis 및 IBM 제공

Artificial Analysis와 IBM Research는 에이전트 기반 기업 IT 작업(agentic enterprise IT tasks)을 평가하는 새로운 벤치마크 시리즈의 첫 번째인 ITBench-AA를 출시합니다. 그 시작은 사이트 신뢰성 공학 (Site Reliability Engineering, SRE) 작업이며, 여기서 프런티어 모델들은 50% 미만의 점수를 기록했습니다.

ITBench-AA의 SRE 작업은 Kubernetes 장애 대응 (incident response)에서의 모델 성능을 벤치마크합니다. 여기서 모델과 에이전트는 로그를 읽고, 의존성을 추적하며, 복잡한 인프라 전반에서 근본 원인 엔티티 (root-cause entities)를 식별함으로써 라이브 시스템을 진단해야 합니다. 기반이 되는 ITBench 데이터셋은 IBM Research가 기업 IT 운영에 대한 IBM의 깊은 전문 지식을 활용하여 개발했습니다.

Artificial Analysis는 지난 6개월 동안 IBM과 긴밀히 협력하여 프런티어 AI 평가를 위한 데이터셋 구현을 개발해 왔으며, 사이트 신뢰성 공학 (SRE)을 시작으로 향후 재무 운영 (Financial Operations, FinOps) 및 최고 정보 보안 책임자 (Chief Information Security Officer, CISO) 작업으로 확장할 예정입니다.

Claude Opus 4.7 (Adaptive Reasoning, Max Effort)이 47%로 선두를 달리고 있으며, GPT-5.5 (xhigh)가 46%, Qwen3.7 Max가 42%로 그 뒤를 이었습니다.
모든 프런티어 모델이 50% 미만의 점수를 기록했으며, 이는 ITBench-AA SRE가 당사 제품군 내에서 가장 포화되지 않은 에이전트 벤치마크 중 하나임을 의미합니다. 참고로, 프런티어 모델들은 Terminal-Bench에서는 상당히 더 높은 점수를 기록합니다.
턴 수 (Turn counts)는 거의 3배까지 차이가 나며, 더 긴 궤적 (trajectories)이 더 높은 정확도로 이어지지는 않습니다. GPT-5.5 (xhigh)는 46%의 정확도에서 작업당 평균 31턴을 기록한 반면, Gemini 3.1 Pro Preview는 30%의 정확도에서 평균 83턴을 기록했습니다. 과도하게 조사하는 모델은 상류의 결함 주입 (fault-injection) 메커니즘이나 동시 발생 증상을 거짓 양성 (false positives)으로 나타내는 경향이 있습니다.
GLM-5.1 (Reasoning)이 오픈 웨이트 (open weights) 모델 중 40%로 앞서며 Gemini 3.5 Flash (high)와 사실상 동률을 이루었습니다. DeepSeek V4 Pro (Reasoning, Max Effort)가 38%로 그 뒤를 이었으며, Gemma 4 31B (Reasoning)는 37%로 Gemini 3.1 Pro Preview의 30%보다 앞섰습니다.
총 59개의 SRE 태스크: 40개의 공개 태스크와 19개의 완전히 새로운 홀드아웃 (held-out) 태스크
각 태스크는 경고 (alerts), 이벤트 (events), 트레이스 (traces), 메트릭 (metrics), 로그 (logs) 및 애플리케이션 토폴로지 (application topology)를 포함하는 Kubernetes 인시던트 스냅샷을 제공합니다. 모델은 인시던트의 원인이 되는 독립적인 근본 원인 (root-cause) Kubernetes 엔티티의 최소 집합을 식별해야 합니다.
결함은 인프라 (infrastructure), 서비스 (service), 애플리케이션 (application) 및 리소스 할당량 고갈 (resource quota exhaustion), 롤아웃 실패 (rollout failures), 커넥션 풀 고갈 (connection pool exhaustion), 네트워크 파티션 (network partitions)과 같은 카오스 주입 (chaos-injected) 인시던트를 포함하여 전형적인 SRE 실패 모드를 포괄합니다. 방법론 상세 내용:
에이전트 기반 하네스 (Agentic harness): 각 태스크는 관련 로그와 스냅샷이 포함된 샌드박스 파일 시스템에 대한 셸 (shell) 액세스 권한을 가진 당사의 오픈 소스 Stirrup 레퍼런스 하네스에서 실행되는 모델에 의해 해결됩니다. 태스크당 최대 100턴 제한, 태스크당 3회 반복 수행됩니다.
모델과 에이전트는 인시던트를 유발했다고 판단하는 근본 원인 엔티티 목록 (Kubernetes Deployments, Services, Pods 등)을 제출합니다. 각 제출물은 IBM Research에서 제공하는 근본 원인 정답 (ground-truth) 세트와 비교됩니다.
점수 산정은 완전 재현율에서의 평균 정밀도 (average precision at full recall)를 사용합니다: 모델이 정답 근본 원인 중 하나라도 놓치면 해당 반복에 대해 0.0점을 받습니다. 모든 근본 원인을 식별하면 정밀도 (precision)와 동일한 점수를 부여받습니다. 즉, 제출한 엔티티 중 실제 근본 원인이 차지하는 비율, 즉 진양성 (true positives) / (진양성 (true positives) + 위양성 (false positives))입니다. 헤드라인 점수는 59개 태스크 × 3회 반복의 평균값입니다.
하네스 (Stirrup)는 평가된 모든 모델에 대해 동일하게 유지되어, 모델 간의 직접적인 비교 (apples-to-apples comparison)를 가능하게 합니다.
작업(Tasks)은 에이전트가 셸 명령(shell commands)을 통해 Kubernetes 장애 스냅샷(incident snapshots)을 조사하고, 책임이 있는 근본 원인 엔티티(root-cause entities)를 식별하는 구조화된 JSON 진단 결과를 제출할 것을 요구합니다. 한 가지 공개 SRE 작업에서, 에이전트는 프런트엔드 경로(frontend path)에서 발생하는 사용자 대상 장애를 목격합니다. 에이전트는 셸 명령을 사용하여 오프라인 스냅샷을 검사합니다. 경고(alerts)를 검토하여 장애 발생 시간대를 확인한 후, 트레이스(traces) 및 로그(logs)를 통해 장애의 원인이 프런트엔드 트래픽임을 좁혀 나갑니다. 토폴로지(Topology)를 통해 영향을 받은 서비스들을 특정하고, Kubernetes 매니페스트(manifests)를 통해 프런트엔드를 차단하는 네트워크 정책(network policy)을 찾아냅니다. 성공적인 진단은 책임이 있는 근본 원인 엔티티인 otel-demo/NetworkPolicy/frontend-block-all-ports를 식별해냅니다.
더 많은 턴(turns)이 더 나은 답변을 의미하지는 않습니다. 실제 근본 원인 외에 추가적인 기여 엔티티를 제출하는 모델은 감점을 받습니다. 즉, 올바른 근본 원인을 식별했더라도 상위 메커니즘(예: chaos-mesh 컨트롤러)이나 동시에 발생하는 증상을 추가하는 것은 재현율 제한 정밀도(recall-gated precision) 기준에 따라 거짓 양성(false positive)으로 간주됩니다. 이것이 긴 궤적(trajectories)을 가진 일부 모델이 더 간결한 모델보다 성능이 낮은 이유입니다. Gemini 3.1 Pro Preview는 평균 83턴을 수행하며 30%의 점수를 기록한 반면, Gemma 4 31B (Reasoning)는 평균 58턴을 수행하며 37%의 점수를 기록했습니다.
오픈 웨이트(Open weights) 모델들은 ITBench-AA SRE의 비용 프런티어(cost frontier)에 위치합니다. Gemma 4 31B (Reasoning)는 작업당 $0.14의 비용으로 37%의 점수를 기록하며, 점수와 비용 측면 모두에서 Gemini 3.1 Pro Preview(작업당 $2.23, 30%)를 능가합니다. GLM-5.1 (Reasoning)은 작업당 $1.23로 40%의 점수를 기록하여, 더 낮은 비용으로 Gemini 3.5 Flash (high)($1.70)와 동일한 점수를 달성했습니다. Claude Opus 4.7 (Adaptive Reasoning, Max Effort)은 47%로 리더보드 1위를 차지했으나, 작업당 $5.38로 가장 비용이 많이 듭니다.
자세한 정보는 다음을 참조하십시오:
arXiv의 ITBench 논문: https://arxiv.org/abs/2502.05352
GitHub: https://github.com/itbench-hub/ITBench
ITBench-AA 리더보드: https://artificialanalysis.ai/evaluations/itbench-aa
ITBench-AA HuggingFace 리포지토리: https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre

ITBench-AA: 에이전트 기반 기업 IT 작업을 위한 최초의 벤치마크에서 프런티어 모델들이 50% 미만의 점수를 기록하다 —

요약

핵심 포인트

ITBench-AA: 에이전트 기반 기업 IT 작업을 위한 최초의 벤치마크에서 프런티어 모델들이 50% 미만의 점수를 기록하다 — Artificial Analysis 및 IBM 제공

댓글