arXiv논문2026. 06. 10. 11:37

Workflow-GYM: 실제 전문 분야에서의 컴퓨터 사용 에이전트 태스크에 대한 장기적 관점(Long-Horizon) 평가를 향하여

요약

전문 소프트웨어 환경에서 장기적 관점(Long-Horizon)의 GUI 조작 능력을 평가하기 위한 새로운 벤치마크 Workflow-GYM을 제안합니다. 실험 결과, 최신 모델들도 전문적인 워크플로우 완수에는 큰 어려움을 겪고 있음이 확인되었습니다.

핵심 포인트

전문 도메인 특화 GUI 태스크 평가를 위한 Workflow-GYM 소개
최신 모델의 전문 워크플로우 성공률이 30% 수준에 불과함
단계 누락, 오류 전파, 목표 이탈 등 에이전트의 주요 한계 식별
차세대 GUI 에이전트 연구를 위한 핵심 방향성 제시

최근 몇 년 동안 AI 에이전트(AI agents)는 점점 더 복잡한 실제 태스크를 처리하는 방향으로 급격히 진화해 왔습니다. 그러나 기존의 벤치마크(benchmarks)는 에이전트가 다양한 도메인에 걸쳐 장기적 관점(long-horizon)의 고부가가치 전문 워크플로우(workflows)를 완료하기 위해 그래픽 사용자 인터페이스(GUI)를 조작할 수 있는지 평가하는 경우가 드뭅니다. 현재의 GUI 벤치마크는 여전히 범용 소프트웨어, 비교적 단순한 애플리케이션 및 단기적 관점(short-horizon)의 태스크에 주로 집중되어 있어, 현대의 에이전트가 사용자의 지시를 따라 도메인 특화 전문 소프트웨어를 자율적으로 조작하고 경제적 가치가 있는 업무를 엔드 투 엔드(end-to-end) 방식으로 완수할 수 있는지 여부는 여전히 크게 미지수로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 전문 도메인과 특화된 소프트웨어 환경을 중심으로 하는 장기적 관점의 GUI 태스크를 위한 벤치마크인 Workflow-GYM을 소개합니다. 최신 모델(state-of-the-art models)에 대한 광범위한 실험을 통해, 우리는 가장 강력한 모델조차 성공률이 30%를 약간 상회하는 수준에 그친다는 것을 발견했으며, 이는 전문적인 장기적 관점의 GUI 워크플로우가 현재의 GUI 에이전트들에게 여전히 매우 도전적인 과제임을 강조합니다. 추가 분석 결과, 현재의 에이전트들은 장기적 관점의 워크플로우 일관성을 유지하는 데 어려움을 겪고 있으며, 워크플로우 단계 누락, 오류 전파(error propagation), 목표 이탈(objective drift), 그리고 전문 소프트웨어 환경에 대한 이해 부족을 빈번하게 나타내는 것으로 밝혀졌습니다. 우리의 연구 결과는 현재 에이전트 시스템의 한계에 대한 중요한 통찰을 제공하며, 차세대 GUI 에이전트 연구를 위한 핵심 방향을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Workflow-GYM: 실제 전문 분야에서의 컴퓨터 사용 에이전트 태스크에 대한 장기적 관점(Long-Horizon) 평가를 향하여

요약

핵심 포인트

댓글