WeaveBench: 하이브리드 인터페이스를 사용하는 컴퓨터 사용 에이전트(Computer-Use Agents)를 위한 장기적 관점의 실세계
요약
컴퓨터 사용 에이전트(CUA)의 교차 인터페이스 오케스트레이션 능력을 평가하기 위한 새로운 벤치마크 WeaveBench를 소개합니다. GUI, CLI, 코드 작업을 결합한 114개의 실세계 태스크를 통해 에이전트의 장기적 작업 수행 능력을 측정합니다.
핵심 포인트
- GUI, CLI, 코드 작업을 통합한 하이브리드 인터페이스 벤치마크 제안
- 단일 궤적 내에서의 복합적인 인터페이스 오케스트레이션 평가
- 지름길 행동을 탐지하는 궤적 인식 판정기(trajectory-aware judge) 도입
- 최고 모델의 PassRate가 41.2%에 불과하여 향후 발전 가능성 시사
컴퓨터 사용 에이전트 (Computer-use agents, CUAs)는 시각적 데스크톱 제어, 명령줄 실행 (command-line execution), 코드 편집, 브라우저 및 외부 도구가 결합된 런타임 (runtimes)에서 점점 더 많이 작동하고 있습니다. 그러나 기존의 벤치마크들은 이러한 인터페이스들을 분리된 능력으로 평가하는 경우가 많아, 장기적인 관점의 교차 인터페이스 오케스트레이션 (cross-interface orchestration)에 대한 테스트가 부족한 실정입니다. 이에 따라, 우리는 실제 사용자의 요청과 공개적으로 검증 가능한 산출물 (artifacts)에 기반하여 8개의 실제 업무 영역에 걸친 114개의 태스크로 구성된 장기적 하이브리드 인터페이스 벤치마크인 WeaveBench를 소개합니다. 각 태스크는 에이전트가 단일 궤적 (trajectory) 내에서 GUI 관찰/작업과 CLI/코드 작업을 결합할 것을 요구합니다. 우리는 최소한의 데스크톱 제어 플러그인 (plugin)으로 보강된, 배포된 CLI-에이전트 런타임 내부의 실제 Ubuntu 데스크톱에서 이러한 태스크들을 평가합니다. 또한 우리는 결과물, 파일, 스크린샷, 로그 및 작업 추적 (action traces)을 검사하는 동시에, 조작된 시각적 증거나 하드코딩된 지표와 같은 지름길 행동 (shortcut behaviors)을 탐지하는 동반 궤적 인식 판정기 (trajectory-aware judge)를 제안합니다. 최첨단 모델-런타임 쌍 전반에 걸쳐, 최고 PassRate는 41.2%에 불과하며, 이는 이 벤치마크가 아직 포화 상태와는 거리가 멀다는 것을 보여줍니다. 궤적 인식 판정기는 결과 중심의 채점 (outcome-only grading)이 에이전트의 성능을 상당히 과대평가한다는 사실을 추가로 밝혀냈습니다. 종합적으로, WeaveBench는 CUA 평가의 결정적인 격차를 드러내며, 에이전트가 장기적인 실세계 태스크 전반에서 GUI, CLI 및 코드 작업을 오케스트레이션할 수 있는지 측정할 수 있는 효과적인 테스트베드를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기