본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 04:23

ToolCUA: Computer Use Agent를 위한 최적의 GUI-Tool 경로 오케스트레이션(Orchestration)을 향하여

요약

본 논문은 Computer Use Agents (CUAs)가 직면하는 하이브리드 액션 공간(GUI 액션과 도구 호출)의 불확실성을 해결하기 위해 ToolCUA라는 엔드투엔드 에이전트를 제안합니다. ToolCUA는 인터리브드 GUI-Tool 궤적 스케일링 파이프라인을 통해 다양한 학습 데이터를 확보하고, 워밍업 SFT와 단일 턴 RL을 결합하여 중요한 전환 시점의 의사결정을 개선합니다. 최종적으로 도구 효율성 보상을 이용한 Online Agentic RL을 통해 최적화된 ToolCUA는 OSWorld-MCP에서 높은 정확도를 달성하며 효과적인 GUI-Tool 오케스트레이션을 입증했습니다.

핵심 포인트

  • CUAs의 하이브리드 액션 공간(GUI/도구)은 실행 경로 선택에 불확실성을 야기하여 성능 저하를 초래한다.
  • ToolCUA는 인터리브드 GUI-Tool 궤적 스케일링 파이프라인을 도입하여 데이터 부족 문제를 해결했다.
  • 학습 과정은 워밍업 SFT와 단일 턴 RL 결합, 그리고 도구 효율성 보상을 이용한 Online Agentic RL의 단계로 구성된다.
  • OSWorld-MCP 실험에서 ToolCUA는 베이스라인 대비 약 66% 향상된 성능을 보여 새로운 SOTA를 달성했다.

Computer Use Agents (CUAs)는 클릭(click) 및 타이핑(type)과 같은 원자적 GUI 액션(atomic GUI actions)과 API 기반 파일 작업과 같은 상위 수준의 도구 호출(tool calls)을 통해 모두 동작할 수 있지만, 이러한 하이브리드 액션 공간(hybrid action space)은 이들이 언제 GUI 액션을 계속할지 또는 도구로 전환할지에 대해 불확실성을 갖게 하여 차선(suboptimal)의 실행 경로를 초래하는 경우가 많습니다. 이러한 어려움은 고품질의 인터리브드(interleaved) GUI-Tool 궤적(trajectories)의 부족, 실제 도구 궤적 수집의 비용 및 취약성, 그리고 GUI-Tool 경로 선택을 위한 궤적 수준의 감독(trajectory-level supervision) 부족에서 기인합니다. 본 논문에서는 단계별 학습 패러다임을 통해 최적의 GUI-Tool 경로 선택을 학습하도록 설계된 엔드투엔드(end-to-end) 에이전트인 ToolCUA를 제안합니다. 먼저, 우리는 풍부한 정적 GUI 궤적을 재활용하고 근거가 있는 도구 라이브러리(grounded tool library)를 합성하여, 수동 엔지니어링이나 실제 도구 궤적 수집 없이도 다양한 GUI-Tool 궤적을 가능하게 하는 인터리브드 GUI-Tool 궤적 스케일링 파이프라인(Interleaved GUI-Tool Trajectory Scaling Pipeline)을 도입합니다. 그다음으로, 우리는 워밍업 SFT(Supervised Fine-Tuning)와 단일 턴 RL(Reinforcement Learning)을 결합하여 중요한 GUI-Tool 전환 시점에서의 의사결정을 개선하는 Tool-Bootstrapped GUI RFT를 수행합니다. 마지막으로, 적절한 도구 사용과 더 짧은 실행 경로를 장려하는 도구 효율적 경로 보상(Tool-Efficient Path Reward)에 의해 유도되는 고충실도(high-fidelity) GUI-Tool 환경에서 Online Agentic RL을 통해 ToolCUA를 최적화합니다. OSWorld-MCP에서의 실험 결과, ToolCUA는 46.85%의 정확도를 달성하였으며, 이는 베이스라인 대비 약 66%의 상대적 향상을 보인 것으로, 유사한 규모의 모델들 사이에서 새로운 SOTA(state of the art)를 구축했습니다. 또한 GUI 전용(GUI-only) 설정보다 3.9% 향상되어 효과적인 GUI-Tool 오케스트레이션(orchestration)을 입증했습니다. 이러한 결과는 하이브리드 액션 공간에서의 학습이 실제 디지털 에이전트를 위한 유망한 패러다임임을 시사합니다. 오픈 소스로 공개되었습니다: https://x-plug.github.io/ToolCUA/

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0