WindowsWorld: 전문 교차 응용 환경에서의 자율 GUI 에이전트에 대한 프로세스 중심 벤치마크
요약
기존 GUI 에이전트 벤치마크는 단일 응용 프로그램 작업에 치중되어 있어 복잡한 전문 워크플로우를 평가하는 데 한계가 있었습니다. 본 논문은 이러한 격차를 해소하기 위해 'WindowsWorld'라는 교차 응용 프로그램(cross-application) 워크플로우 벤치마크를 제시합니다. 이 벤치마크는 실제 직업 환경을 반영하는 다단계 작업을 포함하며, 실험 결과에 따르면 현재의 GUI 에이전트들은 여러 응용 프로그램을 조정해야 하는 복잡한 작업에서 성능이 현저히 떨어지는 것으로 나타났습니다.
핵심 포인트
- 기존 벤치마크는 단일 앱 작업 위주였으나, WindowsWorld는 실제 전문 워크플로우를 반영하는 교차 응용 프로그램 다단계 작업을 제공합니다.
- WindowsWorld 벤치마크는 16가지 직업을 기반으로 하며, 총 181개의 작업(78%가 다응용 프로그램)으로 구성되어 있습니다.
- 현재 GUI 에이전트들은 여러 응용 프로그램을 조정해야 하는 복잡한 작업에서 성공률이 매우 낮습니다 (평균 < 21%).
- 에이전트들은 조건부 판단과 3개 이상의 앱을 가로지르는 추론이 필요한 작업에서 실패하는 경향을 보입니다.
GUI 에이전트는 OSWorld와 같은 일반적인 컴퓨터 사용 작업에서 놀라운 능력을 보여주었지만, 현재의 벤치마크는 주로 격리된 단일 응용 프로그램 작업에 집중하고 있습니다. 이는 여러 응용 프로그램을 조정하여 복잡한 전문 특화 워크플로우를 수행해야 하는 중요한 실제 세계 요구 사항을 간과한 것입니다. 이 격차를 해소하기 위해 우리는 WindowsWorld라는 이름의 교차 응용 프로그램 워크플로우 컴퓨터 사용 벤치마크를 제시합니다. 이 벤치마크는 실제 세계 전문 활동을 반영하는 복잡한 다단계 작업에서 GUI 에이전트를 체계적으로 평가하도록 설계되었습니다. 우리의 방법론은 16 가지 직업을 기반으로 한 다 에이전트 프레임워크를 사용하여 중간 점검이 포함된 4 가지 난이도 수준의 작업을 생성하고, 이를 인간 검토로 정제하여 시뮬레이션 환경에서 실행합니다. 결과 벤치마크에는 17 가지 일반적인 데스크톱 응용 프로그램을 대상으로 하위 목표 평균 5.0 개가 있는 총 181 개의 작업이 포함되어 있으며, 이 중 78% 는 본질적으로 다 응용 프로그램입니다. 선두 대형 모델 및 에이전트의 실험 결과는 다음과 같습니다: 1) 모든 컴퓨터 사용 에이전트가 다 응용 프로그램 작업에서 성능이 저조 (< 21% 성공률) 하여 간단한 단일 앱 작업의 성능보다 훨씬 낮습니다; 2) 조건부 판단과 $ ext{3 개 이상}$ 의 응용 프로그램을 가로지르는 추론이 필요한 작업에서 대부분 실패하며 초기 하위 목표에서 멈춥니다; 3) 낮은 실행 효율성으로 인해 인간 단계 한계를 훨씬 초과함에도 불구하고 작업이 자주 실패합니다. 코드, 벤치마크 데이터, 평가 자원은 github.com/HITsz-TMG/WindowsWorld 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기