본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 25. 00:40

VLAA-GUI: GUI 자동화 에이전트의 성공/복구/검색을 위한 모듈형 프레임워크

요약

본 논문은 자율적인 GUI(Graphical User Interface) 자동화 에이전트가 직면하는 '조기 성공 선언' 및 '반복 루프' 문제를 해결하기 위한 모듈형 프레임워크인 VLAA-GUI를 제안합니다. 이 프레임워크는 시스템이 언제 멈춰야 할지(Stop), 실패 시 어떻게 복구해야 할지(Recover), 그리고 새로운 방법을 찾아 검색해야 할지(Search)에 대한 체계적인 가이드를 제공합니다. 핵심 구성 요소로는 UI 기반 성공 기준을 검증하는 'Completeness Verifier', 반복 실패를 방지하고 전략 전환을

핵심 포인트

  • VLAA-GUI는 GUI 자동화 에이전트의 조기 종료 및 무한 루프 문제를 해결하기 위해 설계된 모듈형 프레임워크입니다.
  • 핵심 구성 요소로는 UI 기반 성공 기준 검증을 강제하는 Completeness Verifier, 반복 실패를 막고 전략 변화를 유도하는 Loop Breaker가 포함됩니다.
  • 이 프레임워크는 Opus 4.5, 4.6 및 Gemini 3.1 Pro 등 5가지 백본 모델에서 평가되었으며, OSWorld에서 인간 성능(72.4%)을 초과 달성한 경우가 있었습니다.
  • Loop Breaker를 통해 루프에 취약한 모델의 낭비 스텝 수를 거의 절반으로 줄일 수 있음을 입증했습니다.

Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0