본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 08. 23:14

bytedance/UI-TARS-desktop

요약

Agent TARS와 UI-TARS-desktop은 멀티모달 AI 에이전트 스택으로, GUI 에이전트 기능과 비전(Vision) 능력을 활용하여 터미널, 컴퓨터, 브라우저 등 다양한 환경에서 인간과 유사한 작업 수행을 목표로 합니다. Agent TARS는 CLI와 Web UI를 통해 작동하며 최신 LLM 및 실제 세계 툴과의 통합을 제공하는 반면, UI-TARS-desktop은 네이티브 데스크톱 애플리케이션으로 로컬/원격 컴퓨터 및 브라우저 제어 기능을 제공합니다.

핵심 포인트

  • Agent TARS는 GUI 에이전트와 비전을 결합하여 터미널, 웹, 실제 툴 등 광범위한 환경에서 작업을 수행하는 멀티모달 AI 스택입니다.
  • UI-TARS-desktop은 네이티브 데스크톱 앱으로, 원격 컴퓨터 및 브라우저를 제어할 수 있는 기능을 제공하며 사용 편의성을 높였습니다.
  • CLI 버전에는 스트리밍 지원, 런타임 통계, 이벤트 스트림 뷰어 등 개발자 친화적인 디버깅 및 모니터링 기능이 추가되었습니다.
  • 하이브리드 브라우저 에이전트와 MCP(Multi-Capability Platform) 통합을 통해 실제 세계의 다양한 도구와의 연결성을 확보했습니다.

**TARS *** 는 현재 두 가지 프로젝트를 출시하고 있는 멀티모달 AI 에이전트 스택입니다: Agent TARS 와 UI-TARS-desktop:

Agent TARSUI-TARS-desktop

agent-tars-book-hotel.mp4 |

computer-use-triple-speed.mp4 |

Agent TARS 는 일반적인 멀티모달 AI 에이전트 스택으로, GUI 에이전트와 비전 (Vision) 의 힘을 터미널, 컴퓨터, 브라우저, 제품으로 가져옵니다. 주로 CLI 와 Web UI 를 통해 사용하며, 최첨단 멀티모달 LLM 과 다양한 실제 세계 MCP 툴과의 원활한 통합을 통해 인간과 유사한 작업 완성에 가까운 워크플로우를 제공하고자 합니다.

UI-TARS Desktop 는 UI-TARS 모델을 기반으로 한 네이티브 GUI 에이전트를 제공하는 데스크톱 애플리케이션입니다. 주로 로컬 및 원격 컴퓨터와 브라우저 운영자를 제공합니다.

**[2025-11-05]**🎉 Agent TARS CLI v0.3.0 출시를 기쁘게 알립니다! 이 버전은 멀티 툴 (쉘 명령어, 다중 파일 구조화된 표시) 을 위한 스트리밍 지원, 툴 호출과 깊은 사고에 대한 타이밍 통계가 포함된 런타임 설정, 데이터 흐름 추적 및 디버깅을 위한 이벤트 스트림 뷰어를 제공합니다. 또한 AIO agent Sandbox 를 위한 독점 지원을 제공하여 격리된 올인원 툴 실행 환경을 제공합니다.

**[2025-06-25]**Agent TARS Beta 와 Agent TARS CLI 를 출시했습니다. Agent TARS Beta 는 풍부한 멀티모달 기능 (GUI 에이전트, 비전 등) 과 다양한 실제 세계 툴과의 원활한 통합을 통해 인간과 유사한 작업 완성에 가까운 워크폼을 탐구하려는 멀티모달 AI 에이전트입니다.

[2025-06-12]- 🎁 UI-TARS Desktop v0.2.0 출시를 기쁘게 알립니다! 이번 업데이트는 두 가지 강력한 새로운 기능을 소개합니다:원격 컴퓨터 운영자원격 브라우저 운영자—두 기능 모두 완전히 무료입니다. 설정이 필요 없습니다: 클릭하여 임의의 컴퓨터나 브라우저를 원격으로 제어하고, 새로운 수준의 편의성과 지능을 경험하세요.

[2025-04-17]- 🎉 새 UI-TARS Desktop 애플리케이션 v0.1.0 출시를 기쁘게 알립니다! 재설계된 에이전트 UI 를 특징으로 합니다. 컴퓨터 사용 경험을 향상시키고, 새로운 브라우저 운영 기능을 소개하며, 향상된 성능과 정밀한 제어를 위한 고급 UI-TARS-1.5 모델을 지원합니다.

[2025-02-20]- 📦 UI TARS SDK 를 소개했습니다. GUI 자동화 에이전트 구축을 위한 강력한 크로스 플랫폼 툴킷입니다.

[2025-01-23]- 🚀 中文版: GUI 모델 배포 가이드의 클라우드 배포 (Cloud Deployment) 섹션에 ModelScope 플랫폼과 관련된 새로운 정보를 추가했습니다. 이제 t

ModelScope 플랫폼을 통한 배포.

Agent TARS 는 일반적 멀티모달 AI 에이전트 스택으로, GUI 에이전트와 Vision 의 힘을 터미널, 컴퓨터, 브라우저 및 제품에 가져옵니다.

주요 기능은 CLI 와 Web UI 를 통해 사용하며, 최첨단 멀티모달 LLM 과 다양한 실제 세계 MCP 도구와의 원활한 통합을 통해 인간과 유사한 작업 완성에 가까운 워크플로우를 제공합니다.

Please help me book the earliest flight from San Jose to New York on September 1st and the last return flight on September 6th on Priceline

agent-tars-new-flight.mp4

Booking HotelGenerate Chart with extra MCP Servers

agent-tars-book-hotel.mp4 |

mcp-chart.mp4 |

Instruction: I am in Los Angeles from September 1st to September 6th, with a budget of $5,000. Please help me book a Ritz-Carlton hotel closest to the airport on booking.com and compile a transportation guide for me
|
Instruction: Draw me a chart of Hangzhou's weather for one month
|

더 많은 사용 사례는 #842 를 확인하세요.

  • 🖱️ One-Click Out-of-the-box CLI - headfulWeb UI 와 headless서버 실행을 모두 지원합니다. - 🌐 Hybrid Browser Agent - GUI 에이전트, DOM 또는 하이브리드 전략으로 브라우저를 제어합니다. - 🔄 Event Stream - 프로토콜 기반 Event Stream 은 Context Engineering 과 Agent UI 를 구동합니다. - 🧰 MCP Integration - 커널은 MCP 에 기반하며 실제 세계 도구에 연결하기 위해 MCP 서버를 마운트할 수 있습니다.
# Launch with `npx`.
npx @agent-tars/cli@latest
# Install globally, required Node.js >= 22
...

자세한 설치 지침은 종합적인 Quick Start 가이드를 방문하세요.

🌟

Agent TARS Universe 탐색 🌟

UI-TARS Desktop 은 UI-TARS 와 Seed-1.5-VL/1.6 시리즈 모델에 의해 구동되는 로컬 컴퓨터용 네이티브 GUI 에이전트입니다.

📑 Paper
| 🤗 Hugging Face Models
| 🫨 Discord
| 🤖 ModelScope

🖥️ Desktop Application
| 👓 Midscene (use in browser)

InstructionLocal OperatorRemote Operator
Please help me open the autosave feature of VS Code and delay AutoSave operations for 500 milliseconds in the VS Code setting.## computer-use-triple-speed.mp4

remote-computer-operators.mp4 |

| Could you help me check the latest open issue of the UI-TARS-Desktop project on GitHub? | ## browser-use-triple-speed.mp4 |

remote-browser-operators.mp4 |

  • 🤖 Vision-Language Model 기반 자연어 제어
  • 🖥️ 스크린샷 및 시각 인식 지원
  • 🎯 정밀한 마우스 및 키보드 제어
  • 💻 크로스 플랫폼 지원 (Windows/MacOS/브라우저)
  • 🔄 실시간 피드백 및 상태 표시
  • 🔐 사적 및 보안 - 완전 로컬 처리

Quick Start 보기

CONTRIBUTING.md 보기.

이 프로젝트는 Apache License 2.0 라이선스를 따릅니다.

연구에 도움이 된다면, ⭐를 주시고 📝를 참고해 주세요.

title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
...

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending TypeScript (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0