WindowsWorld: 전문 교차 응용 환경에서의 자율 GUI 에이전트에 대한 프로세스 중심 벤치마크

GUI 에이전트는 OSWorld와 같은 일반적인 컴퓨터 사용 작업에서 놀라운 능력을 보여주었지만, 현재의 벤치마크는 주로 격리된 단일 응용 프로그램 작업에 집중하고 있습니다. 이는 여러 응용 프로그램을 조정하여 복잡한 전문 특화 워크플로우를 수행해야 하는 중요한 실제 세계 요구 사항을 간과한 것입니다. 이 격차를 해소하기 위해 우리는 WindowsWorld라는 이름의 교차 응용 프로그램 워크플로우 컴퓨터 사용 벤치마크를 제시합니다. 이 벤치마크는 실제 세계 전문 활동을 반영하는 복잡한 다단계 작업에서 GUI 에이전트를 체계적으로 평가하도록 설계되었습니다. 우리의 방법론은 16 가지 직업을 기반으로 한 다 에이전트 프레임워크를 사용하여 중간 점검이 포함된 4 가지 난이도 수준의 작업을 생성하고, 이를 인간 검토로 정제하여 시뮬레이션 환경에서 실행합니다. 결과 벤치마크에는 17 가지 일반적인 데스크톱 응용 프로그램을 대상으로 하위 목표 평균 5.0 개가 있는 총 181 개의 작업이 포함되어 있으며, 이 중 78% 는 본질적으로 다 응용 프로그램입니다. 선두 대형 모델 및 에이전트의 실험 결과는 다음과 같습니다: 1) 모든 컴퓨터 사용 에이전트가 다 응용 프로그램 작업에서 성능이 저조 (< 21% 성공률) 하여 간단한 단일 앱 작업의 성능보다 훨씬 낮습니다; 2) 조건부 판단과 $ ext{3 개 이상}$ 의 응용 프로그램을 가로지르는 추론이 필요한 작업에서 대부분 실패하며 초기 하위 목표에서 멈춥니다; 3) 낮은 실행 효율성으로 인해 인간 단계 한계를 훨씬 초과함에도 불구하고 작업이 자주 실패합니다. 코드, 벤치마크 데이터, 평가 자원은 github.com/HITsz-TMG/WindowsWorld 에서 이용 가능합니다.

Insights

WindowsWorld: 전문 교차 응용 환경에서의 자율 GUI 에이전트에 대한 프로세스 중심 벤치마크

요약

핵심 포인트

댓글

왜 당신의 브랜드가 ChatGPT, Gemini, Claude에게 보이지 않을 수 있는가

LangChain의 Deep Agents에서 FilesystemBackend 이해하기

베일 뒤의 진실: AI 거물들이 가장 두려워하는 사적인 공포

【AI 에이전트 해부학: 제8회】 지능을 결집하는 조직론: Multi-Agent Collaboration의 협조 설계

LangChain의 Deep Agents에서 FilesystemBackend 이해하기

베일 뒤의 진실: AI 거물들이 가장 두려워하는 사적인 공포

【AI 에이전트 해부학: 제8회】 지능을 결집하는 조직론: Multi-Agent Collaboration의 협조 설계