ToolCUA: Computer Use Agent를 위한 최적의 GUI-Tool 경로 오케스트레이션(Orchestration)을 향하여

Computer Use Agents (CUAs)는 클릭(click) 및 타이핑(type)과 같은 원자적 GUI 액션(atomic GUI actions)과 API 기반 파일 작업과 같은 상위 수준의 도구 호출(tool calls)을 통해 모두 동작할 수 있지만, 이러한 하이브리드 액션 공간(hybrid action space)은 이들이 언제 GUI 액션을 계속할지 또는 도구로 전환할지에 대해 불확실성을 갖게 하여 차선(suboptimal)의 실행 경로를 초래하는 경우가 많습니다. 이러한 어려움은 고품질의 인터리브드(interleaved) GUI-Tool 궤적(trajectories)의 부족, 실제 도구 궤적 수집의 비용 및 취약성, 그리고 GUI-Tool 경로 선택을 위한 궤적 수준의 감독(trajectory-level supervision) 부족에서 기인합니다. 본 논문에서는 단계별 학습 패러다임을 통해 최적의 GUI-Tool 경로 선택을 학습하도록 설계된 엔드투엔드(end-to-end) 에이전트인 ToolCUA를 제안합니다. 먼저, 우리는 풍부한 정적 GUI 궤적을 재활용하고 근거가 있는 도구 라이브러리(grounded tool library)를 합성하여, 수동 엔지니어링이나 실제 도구 궤적 수집 없이도 다양한 GUI-Tool 궤적을 가능하게 하는 인터리브드 GUI-Tool 궤적 스케일링 파이프라인(Interleaved GUI-Tool Trajectory Scaling Pipeline)을 도입합니다. 그다음으로, 우리는 워밍업 SFT(Supervised Fine-Tuning)와 단일 턴 RL(Reinforcement Learning)을 결합하여 중요한 GUI-Tool 전환 시점에서의 의사결정을 개선하는 Tool-Bootstrapped GUI RFT를 수행합니다. 마지막으로, 적절한 도구 사용과 더 짧은 실행 경로를 장려하는 도구 효율적 경로 보상(Tool-Efficient Path Reward)에 의해 유도되는 고충실도(high-fidelity) GUI-Tool 환경에서 Online Agentic RL을 통해 ToolCUA를 최적화합니다. OSWorld-MCP에서의 실험 결과, ToolCUA는 46.85%의 정확도를 달성하였으며, 이는 베이스라인 대비 약 66%의 상대적 향상을 보인 것으로, 유사한 규모의 모델들 사이에서 새로운 SOTA(state of the art)를 구축했습니다. 또한 GUI 전용(GUI-only) 설정보다 3.9% 향상되어 효과적인 GUI-Tool 오케스트레이션(orchestration)을 입증했습니다. 이러한 결과는 하이브리드 액션 공간에서의 학습이 실제 디지털 에이전트를 위한 유망한 패러다임임을 시사합니다. 오픈 소스로 공개되었습니다: https://x-plug.github.io/ToolCUA/

Insights

ToolCUA: Computer Use Agent를 위한 최적의 GUI-Tool 경로 오케스트레이션(Orchestration)을 향하여

요약

핵심 포인트

댓글

npx를 통해 설치 가능한 코드 에이전트용 1,900개 이상의 재사용 가능한 스킬 (SKILL.md). 커뮤니티 오픈 소스 카탈로그.

SpaceX, Tesla 인수 기회를 놓쳤을 수도 있다

월스트리트를 기다리는 인플레이션의 이중 타격, 도널드 트럼프 대통령 체제 하에서 주식 시장 폭락 가능성 높여

Alphabet의 예상 2,050억 달러 자본 지출(Capex)이 상승시킬 수 있는 3가지 AI 주식

npx를 통해 설치 가능한 코드 에이전트용 1,900개 이상의 재사용 가능한 스킬 (SKILL.md). 커뮤니티 오픈 소스 카탈로그.

SpaceX, Tesla 인수 기회를 놓쳤을 수도 있다

월스트리트를 기다리는 인플레이션의 이중 타격, 도널드 트럼프 대통령 체제 하에서 주식 시장 폭락 가능성 높여

Alphabet의 예상 2,050억 달러 자본 지출(Capex)이 상승시킬 수 있는 3가지 AI 주식