Workspace-Bench 1.0: 대규모 파일 의존성을 가진 작업 공간 작업을 위한 AI 에이전트 벤치마킹

서론

Workspace 학습은 작업자 (worker) 의 작업 공간 (workspace) 내에서 이질적인 파일들 사이의 명시적 및 암시적 의존성을 식별하고, 추론하며, 활용하고, 업데이트하는 것을 요구합니다. 이를 통해 에이전트는 일상적이고 고급스러운 두 가지 유형의 작업을 효과적으로 완료할 수 있습니다. 그럼에도 불구하고, 기존 관련 벤치마크는 제한된 실제 세계의 의존성을 가진 사전 지정되거나 합성된 파일에 대해 에이전트를 평가하는 데 주로 집중하여, 작업 공간 수준의 평가는 충분히 탐구되지 않았습니다.

본론

이에 따라, 우리는 대규모 파일 의존성을 포함하는 Workspace Learning 을 위한 AI 에이전트 평가를 위한 Workspace-Bench 를 소개합니다. 우리는 5 개의 작업자 프로필 (worker profiles), 74 가지 파일 유형, 최대 20GB 의 20,476 개의 파일을 가진 현실적인 작업 공간을 구축하고, 각 작업마다 고유한 파일 의존성 그래프를 갖는 388 개의 작업을 큐레이션했습니다. 이는 총 7,399 개의 평가 기준 (rubrics) 을 통해 교차 파일 검색 (cross-file retrieval), 문맥적 추론 (contextual reasoning), 적응형 의사결정 (adaptive decision-making) 이 요구되는 방식으로 평가됩니다.

또한, 벤치마크 분포를 유지하면서 평가 비용을 약 70% 줄이는 100 개의 작업으로 구성된 Workspace-Bench-Lite 를 제공합니다. 우리는 4 개 인기 있는 에이전트 해스너 (agent harnesses) 와 7 개의 foundation models 을 평가했습니다.

결론

실험 결과는 현재 에이전트가 아직 신뢰할 수 없는 Workspace 학습에서 멀리 떨어져 있음을 보여줍니다. 여기서 최상의 성능은 68.7% 로, 인간 결과인 80.7% 에 비해 현저히 낮으며, 에이전트들의 평균 성능은 47.4% 만입니다.

Insights

Workspace-Bench 1.0: 대규모 파일 의존성을 가진 작업 공간 작업을 위한 AI 에이전트 벤치마킹

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다