Workspace-Bench 1.0: 대규모 파일 의존성을 가진 작업 공간 작업을 위한 AI 에이전트 벤치마킹
요약
Workspace-Bench는 대규모 파일 의존성을 가진 작업 공간(workspace) 작업을 위한 AI 에이전트를 평가하기 위해 개발된 새로운 벤치마크입니다. 이 벤치마크는 현실적인 작업 환경을 시뮬레이션하여 최대 20GB의 파일을 포함하고, 총 388개의 고유한 파일 의존성 그래프를 가진 작업을 제공합니다. 이를 통해 에이전트가 교차 파일 검색, 문맥적 추론, 적응형 의사결정 능력을 종합적으로 평가할 수 있습니다.
핵심 포인트
- 기존 벤치마크의 한계를 극복하고 대규모 파일 의존성을 가진 실제 작업 공간 학습을 위한 새로운 평가 도구(Workspace-Bench)를 제시했습니다.
- 실제 환경과 유사하게 최대 20GB, 2만 개 이상의 파일을 포함하는 현실적인 작업 공간을 구축하여 높은 난이도를 제공합니다.
- 평가 기준은 총 7,399개에 달하며, 에이전트의 교차 파일 검색 및 문맥적 추론 능력을 종합적으로 측정합니다.
- 현재 AI 에이전트들의 성능은 인간 수준(80.7%)에 크게 미치지 못하는 것으로 실험 결과가 나타났습니다.
서론
Workspace 학습은 작업자 (worker) 의 작업 공간 (workspace) 내에서 이질적인 파일들 사이의 명시적 및 암시적 의존성을 식별하고, 추론하며, 활용하고, 업데이트하는 것을 요구합니다. 이를 통해 에이전트는 일상적이고 고급스러운 두 가지 유형의 작업을 효과적으로 완료할 수 있습니다. 그럼에도 불구하고, 기존 관련 벤치마크는 제한된 실제 세계의 의존성을 가진 사전 지정되거나 합성된 파일에 대해 에이전트를 평가하는 데 주로 집중하여, 작업 공간 수준의 평가는 충분히 탐구되지 않았습니다.
본론
이에 따라, 우리는 대규모 파일 의존성을 포함하는 Workspace Learning 을 위한 AI 에이전트 평가를 위한 Workspace-Bench 를 소개합니다. 우리는 5 개의 작업자 프로필 (worker profiles), 74 가지 파일 유형, 최대 20GB 의 20,476 개의 파일을 가진 현실적인 작업 공간을 구축하고, 각 작업마다 고유한 파일 의존성 그래프를 갖는 388 개의 작업을 큐레이션했습니다. 이는 총 7,399 개의 평가 기준 (rubrics) 을 통해 교차 파일 검색 (cross-file retrieval), 문맥적 추론 (contextual reasoning), 적응형 의사결정 (adaptive decision-making) 이 요구되는 방식으로 평가됩니다.
또한, 벤치마크 분포를 유지하면서 평가 비용을 약 70% 줄이는 100 개의 작업으로 구성된 Workspace-Bench-Lite 를 제공합니다. 우리는 4 개 인기 있는 에이전트 해스너 (agent harnesses) 와 7 개의 foundation models 을 평가했습니다.
결론
실험 결과는 현재 에이전트가 아직 신뢰할 수 없는 Workspace 학습에서 멀리 떨어져 있음을 보여줍니다. 여기서 최상의 성능은 68.7% 로, 인간 결과인 80.7% 에 비해 현저히 낮으며, 에이전트들의 평균 성능은 47.4% 만입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기