bytedance/UI-TARS
요약
UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화 및 GUI 에이전트 시스템입니다. 최신 버전인 UI-TARS-2는 GUI, 게임, 코드, 도구 사용 능력이 대폭 강화되었으며, 기초 아키텍처와 강화학습을 통해 고급 추론 능력을 통합했습니다. 이 모델은 데스크톱 환경(마우스 클릭, 키보드 단축키 등)과 모바일 기기 환경에 맞는 다양한 프롬프트 템플릿을 제공하여 복잡한 멀티모달 상호작용 시스템 개발 및 평가에 활용될 수 있습니다.
핵심 포인트
- UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화/GUI 에이전트입니다.
- UI-TARS-2 버전은 GUI, 게임, 코드, 도구 사용 능력이 강화되어 복잡한 작업 통합이 가능합니다.
- 모델은 고급 추론 능력과 적응성을 향상시키기 위해 기초 아키텍처와 강화학습을 활용했습니다.
- 데스크톱 환경(Windows/Linux/macOS) 및 모바일 기기 환경에 최적화된 세 가지 프롬프트 템플릿을 제공합니다.
- 다양한 표준 벤치마크에서 높은 성능을 보여주며, 특히 OSworld와 Windows Agent Arena 등에서 우수한 결과를 달성했습니다.
🌐 Website | 🤗 Hugging Face Models
| 🔧 Deployment | 📑 Paper |
🖥️ UI-TARS-desktop
🏄 Midscene (Browser Automation) | 🫨 Discord
저희는 사용자의 **로컬 개인 기기 (local personal device)**에서 작동할 수 있는 UI-TARS-desktop 버전도 제공합니다. 이를 사용하려면 https://github.com/bytedance/UI-TARS-desktop 을 방문해 주세요. 웹 자동화 (web automation)에서 UI-TARS를 사용하려면 오픈 소스 프로젝트인 Midscene.js를 참고하실 수 있습니다.
❗참고: Qwen 2.5vl 기반 모델은 객체를 그라운딩 (grounding)하기 위해 절대 좌표 (absolute coordinates)를 사용하므로, 이 가이드의 좌표 처리 방법에 관한 설명을 참고해 주시기 바랍니다.
- 🌟 2025.09.04: UI-TARS-1.5에서 대폭 업그레이드되어 GUI, 게임 (Game), 코드 (Code) 및 도구 사용 (Tool Use) 능력이 강화된 UI-TARS-2의 출시를 발표하게 되어 기쁩니다. 이는 복잡한 작업을 위해 여러 능력을 원활하게 통합할 수 있는
최근 논문에서 소개된 기초 아키텍처 (foundational architecture)를 활용하여, UI-TARS-1.5는 강화학습 (reinforcement learning)을 통해 가능해진 고급 추론 (advanced reasoning) 능력을 통합합니다. 이를 통해 모델은 행동을 취하기 전에 자신의 생각을 통해 추론할 수 있으며, 특히 추론 시간 스케일링 (inference-time scaling) 측면에서 성능과 적응성을 크게 향상시킵니다. 우리의 새로운 1.5 버전은 다양한 표준 벤치마크 (benchmarks)에서 최첨단 (state-of-the-art) 결과를 달성하며, 강력한 추론 능력과 이전 모델 대비 눈에 띄는 개선 사항을 입증했습니다.
모델을 빠르게 시작할 수 있도록 아래 단계들을 순서대로 따를 것을 권장합니다. 이 단계들은 배포 (deployment)부터, 모델이 귀하의 환경에서 행동을 취할 수 있도록 하는 예측 후처리 (prediction post-processing) 과정을 안내합니다.
👉 배포 및 추론 (Deployment and Inference). 여기에는 huggingface 엔드포인트를 사용한 모델 배포 및 첫 번째 예측을 실행하는 방법에 대한 지침이 포함되어 있습니다.
pip install ui-tars
# 또는
uv pip install ui-tars
from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code
response = "Thought: Click the button\nAction: click(start_box='(100,200)')"
original_image_width, original_image_height = 1920, 1080
...
좌표 처리 (coordinate processing)를 더 잘 이해할 수 있도록, 좌표 처리 시각화 (coordinates processing visualization) 가이드도 함께 제공합니다.
다양한 기기 환경과 작업 복잡성을 수용하기 위해, codes/ui_tars/prompt.py에 있는 다음 세 가지 프롬프트 템플릿 (prompt templates)은 GUI 에이전트 (agents)가 적절한 행동을 생성하도록 설계되었습니다. 귀하의 사용 사례에 가장 적합한 템플릿을 선택하세요:
권장 대상: Windows, Linux 또는 macOS와 같은 **데스크톱 환경 (desktop environments)**에서의 GUI 작업.
특징:
- 일반적인 데스크톱 동작 지원: 마우스 클릭 (단일, 이중, 우클릭), 드래그 동작, 키보드 단축키, 텍스트 입력, 스크롤 등.
- 브라우저 탐색, 오피스 소프트웨어 상호작용, 파일 관리 및 기타 데스크톱 기반 작업에 이상적임.
권장 대상: **모바일 기기 (mobile devices) 또는 Android 에뮬레이터 (emulators)**에서의 GUI 작업.
주요 기능 (Features):
- 모바일 전용 동작 포함:
long_press(길게 누르기),open_app(앱 열기),press_home(홈 버튼 누르기),press_back(뒤로 가기 버튼 누르기). - 앱 실행, 뷰 스크롤 (scrolling views), 입력 필드 채우기, 모바일 앱 내 탐색에 적합합니다.
권장 대상: 오직 **동작 출력 (action output)**에만 집중하는 가벼운 작업, 또는 모델 학습 및 평가 용도.
주요 기능 (Features):
- 추론 (
Thought) 없이 오직Action(동작)만을 출력합니다. - 그라운딩 능력 (grounding capability)을 평가하는 데 유용합니다.
멀티모달 상호작용 시스템 (multimodal interaction systems)을 개발하거나 평가할 때, 대상 플랫폼 (데스크톱 vs 모바일)에 따라 적절한 프롬프트 템플릿 (prompt template)을 선택하십시오.
온라인 벤치마크 평가 (Online Benchmark Evaluation)
| 벤치마크 유형 | 벤치마크 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 이전 SOTA |
|---|---|---|---|---|---|
| Computer Use (컴퓨터 사용) | OSworld (100 steps) | 42.5 | 36.4 | 28 | 38.1 (200 step) |
| Windows Agent Arena (50 steps) | 42.1 | - | - | 29.8 | |
| Browser Use (브라우저 사용) | WebVoyager | 84.8 | 87 | 84.1 | 87 |
| Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
| Phone Use (전화 사용) | Android World | 64.2 | - | - | 59.5 |
그라운딩 능력 평가 (Grounding Capability Evaluation)
| 벤치마크 | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | 이전 SOTA |
|---|---|---|---|---|
| ScreenSpot-V2 | 94.2 | 87.9 | 87.6 | 91.6 |
| ScreenSpotPro | 61.6 | 23.4 | 27.7 | 43.6 |
Poki Game
| 모델 | 2048 | cubinko | energy | free-the-key | Gem-11 | hex-frvr | Infinity-Loop | Maze:Path-of-Light | shapes | snake-solver | wood-blocks-3d | yarn-untangle | laser-maze-puzzle | tiles-master |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OpenAI CUA | 31.04 | 0.00 | 32.80 | 0.00 | 46.27 | 92.25 | 23.08 | 35.00 | 52.18 | 42.86 | 2.02 | 44.56 | 80.00 | 78.27 |
| ... | ||||||||||||||
| Minecraft |
| 작업 유형 (Task Type) | 작업 이름 (Task Name) | VPT | DreamerV3 | 이전 SOTA (Previous SOTA) | UI-TARS-1.5 w/o Thought | UI-TARS-1.5 w/ Thought |
|---|---|---|---|---|---|---|
| 블록 채굴 (Mine Blocks) | (oak_log) | 0.8 | 1.0 | 1.0 | 1.0 | 1.0 |
| ... | 200개 작업 평균 (200 Tasks Avg.) | 0.06 | 0.03 | 0.32 | 0.35 | 0.42 |
| 몹 처치 (Kill Mobs) | (mooshroom) | 0.0 | 0.0 | 0.1 | 0.3 | 0.4 |
| (zombie) | 0.4 | 0.1 | 0.6 | 0.7 | 0.9 | |
| (chicken) | 0.1 | 0.0 | 0.4 | 0.5 | 0.6 | |
| 100개 작업 평균 (100 Tasks Avg.) | 0.04 | 0.03 | 0.18 | 0.25 | 0.31 |
여기에서 우리는 OSWorld 벤치마크(benchmark)에서 UI-TARS의 다양한 모델 규모(model scales)에 따른 성능을 비교합니다.
| 벤치마크 유형 (Benchmark Type) | 벤치마크 (Benchmark) | UI-TARS-72B-DPO | UI-TARS-1.5-7B | UI-TARS-1.5 |
|---|---|---|---|---|
| 컴퓨터 사용 (Computer Use) | OSWorld | 24.6 | 27.5 | 42.5 |
| GUI 그라운딩 (GUI Grounding) | ScreenSpotPro | 38.1 | 49.6 | 61.6 |
UI-TARS-1.5가 멀티모달 에이전트 (multimodal agent) 역량에서 상당한 진보를 보여주지만, 우리는 몇 가지 중요한 한계점을 인지하고 있습니다:
오용 (Misuse): CAPTCHA와 같은 인증 과제를 성공적으로 통과하는 것을 포함하여 GUI 작업에서의 향상된 성능으로 인해, UI-TARS-1.5는 승인되지 않은 접근이나 보호된 콘텐츠의 자동화에 오용될 잠재적 가능성이 있습니다. 이 위험을 완화하기 위해 광범위한 내부 안전 평가가 진행 중입니다.
연산 (Computation): UI-TARS-1.5는 특히 대규모 작업이나 확장된 게임 플레이 시나리오에서 여전히 상당한 연산 자원을 필요로 합니다.
환각 (Hallucination): UI-TARS-1.5는 특히 모호하거나 익숙하지 않은 환경에서 가끔 부정확한 설명을 생성하거나, GUI 요소를 잘못 식별하거나, 잘못된 추론을 바탕으로 최선이 아닌 행동을 취할 수 있습니다.
모델 규모 (Model scale): 출시된 UI-TARS-1.5-7B는 주로 일반적인 컴퓨터 사용 역량을 강화하는 데 중점을 두고 있으며, UI-TARS-1.5가 여전히 상당한 우위를 점하고 있는 게임 기반 시나리오에 특화되어 최적화되지는 않았습니다.
우리는 협력 연구를 촉진하기 위해 가장 성능이 뛰어난 UI-TARS-1.5 모델에 대한 초기 연구 접근 권한을 제공합니다. 관심 있는 연구자들은 TARS@bytedance.com으로 연락해 주시기 바랍니다.
앞으로 우리는 UI-TARS가 실제 세계의 동작을 수행할 수 있는 점점 더 정교한 에이전트적 경험 (agentic experiences)으로 진화하여, doubao와 같은 플랫폼이 여러분을 위해 더 복잡한 작업들을 완수할 수 있도록 지원하는 모습을 그려보고 있습니다 :)
만약 저희의 논문과 모델이 귀하의 연구에 유용하다면, 자유롭게 인용 (cite)해 주시기 바랍니다.
@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
...
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기