본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 14. 08:21

bytedance/UI-TARS

요약

UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화 및 GUI 에이전트 시스템입니다. 최신 버전인 UI-TARS-2는 GUI, 게임, 코드, 도구 사용 능력이 대폭 강화되었으며, 기초 아키텍처와 강화학습을 통해 고급 추론 능력을 통합했습니다. 이 모델은 데스크톱 환경(마우스 클릭, 키보드 단축키 등)과 모바일 기기 환경에 맞는 다양한 프롬프트 템플릿을 제공하여 복잡한 멀티모달 상호작용 시스템 개발 및 평가에 활용될 수 있습니다.

핵심 포인트

  • UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화/GUI 에이전트입니다.
  • UI-TARS-2 버전은 GUI, 게임, 코드, 도구 사용 능력이 강화되어 복잡한 작업 통합이 가능합니다.
  • 모델은 고급 추론 능력과 적응성을 향상시키기 위해 기초 아키텍처와 강화학습을 활용했습니다.
  • 데스크톱 환경(Windows/Linux/macOS) 및 모바일 기기 환경에 최적화된 세 가지 프롬프트 템플릿을 제공합니다.
  • 다양한 표준 벤치마크에서 높은 성능을 보여주며, 특히 OSworld와 Windows Agent Arena 등에서 우수한 결과를 달성했습니다.

🌐 Website | 🤗 Hugging Face Models
| 🔧 Deployment | 📑 Paper |
🖥️ UI-TARS-desktop

🏄 Midscene (Browser Automation) | 🫨 Discord

저희는 사용자의 **로컬 개인 기기 (local personal device)**에서 작동할 수 있는 UI-TARS-desktop 버전도 제공합니다. 이를 사용하려면 https://github.com/bytedance/UI-TARS-desktop 을 방문해 주세요. 웹 자동화 (web automation)에서 UI-TARS를 사용하려면 오픈 소스 프로젝트인 Midscene.js를 참고하실 수 있습니다.
❗참고: Qwen 2.5vl 기반 모델은 객체를 그라운딩 (grounding)하기 위해 절대 좌표 (absolute coordinates)를 사용하므로, 이 가이드의 좌표 처리 방법에 관한 설명을 참고해 주시기 바랍니다.

  • 🌟 2025.09.04: UI-TARS-1.5에서 대폭 업그레이드되어 GUI, 게임 (Game), 코드 (Code) 및 도구 사용 (Tool Use) 능력이 강화된 UI-TARS-2의 출시를 발표하게 되어 기쁩니다. 이는 복잡한 작업을 위해 여러 능력을 원활하게 통합할 수 있는

최근 논문에서 소개된 기초 아키텍처 (foundational architecture)를 활용하여, UI-TARS-1.5는 강화학습 (reinforcement learning)을 통해 가능해진 고급 추론 (advanced reasoning) 능력을 통합합니다. 이를 통해 모델은 행동을 취하기 전에 자신의 생각을 통해 추론할 수 있으며, 특히 추론 시간 스케일링 (inference-time scaling) 측면에서 성능과 적응성을 크게 향상시킵니다. 우리의 새로운 1.5 버전은 다양한 표준 벤치마크 (benchmarks)에서 최첨단 (state-of-the-art) 결과를 달성하며, 강력한 추론 능력과 이전 모델 대비 눈에 띄는 개선 사항을 입증했습니다.

모델을 빠르게 시작할 수 있도록 아래 단계들을 순서대로 따를 것을 권장합니다. 이 단계들은 배포 (deployment)부터, 모델이 귀하의 환경에서 행동을 취할 수 있도록 하는 예측 후처리 (prediction post-processing) 과정을 안내합니다.

👉 배포 및 추론 (Deployment and Inference). 여기에는 huggingface 엔드포인트를 사용한 모델 배포 및 첫 번째 예측을 실행하는 방법에 대한 지침이 포함되어 있습니다.

pip install ui-tars
# 또는
uv pip install ui-tars
from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code
response = "Thought: Click the button\nAction: click(start_box='(100,200)')"
original_image_width, original_image_height = 1920, 1080
...

좌표 처리 (coordinate processing)를 더 잘 이해할 수 있도록, 좌표 처리 시각화 (coordinates processing visualization) 가이드도 함께 제공합니다.

다양한 기기 환경과 작업 복잡성을 수용하기 위해, codes/ui_tars/prompt.py에 있는 다음 세 가지 프롬프트 템플릿 (prompt templates)은 GUI 에이전트 (agents)가 적절한 행동을 생성하도록 설계되었습니다. 귀하의 사용 사례에 가장 적합한 템플릿을 선택하세요:

권장 대상: Windows, Linux 또는 macOS와 같은 **데스크톱 환경 (desktop environments)**에서의 GUI 작업.

특징:

  • 일반적인 데스크톱 동작 지원: 마우스 클릭 (단일, 이중, 우클릭), 드래그 동작, 키보드 단축키, 텍스트 입력, 스크롤 등.
  • 브라우저 탐색, 오피스 소프트웨어 상호작용, 파일 관리 및 기타 데스크톱 기반 작업에 이상적임.

권장 대상: **모바일 기기 (mobile devices) 또는 Android 에뮬레이터 (emulators)**에서의 GUI 작업.

주요 기능 (Features):

  • 모바일 전용 동작 포함:
    long_press (길게 누르기), open_app (앱 열기), press_home (홈 버튼 누르기), press_back (뒤로 가기 버튼 누르기).
  • 앱 실행, 뷰 스크롤 (scrolling views), 입력 필드 채우기, 모바일 앱 내 탐색에 적합합니다.

권장 대상: 오직 **동작 출력 (action output)**에만 집중하는 가벼운 작업, 또는 모델 학습 및 평가 용도.

주요 기능 (Features):

  • 추론 (Thought) 없이 오직 Action (동작)만을 출력합니다.
  • 그라운딩 능력 (grounding capability)을 평가하는 데 유용합니다.

멀티모달 상호작용 시스템 (multimodal interaction systems)을 개발하거나 평가할 때, 대상 플랫폼 (데스크톱 vs 모바일)에 따라 적절한 프롬프트 템플릿 (prompt template)을 선택하십시오.

온라인 벤치마크 평가 (Online Benchmark Evaluation)

벤치마크 유형벤치마크UI-TARS-1.5OpenAI CUAClaude 3.7이전 SOTA
Computer Use (컴퓨터 사용)OSworld (100 steps)42.536.42838.1 (200 step)
Windows Agent Arena (50 steps)42.1--29.8
Browser Use (브라우저 사용)WebVoyager84.88784.187
Online-Mind2web75.87162.971
Phone Use (전화 사용)Android World64.2--59.5

그라운딩 능력 평가 (Grounding Capability Evaluation)

벤치마크UI-TARS-1.5OpenAI CUAClaude 3.7이전 SOTA
ScreenSpot-V294.287.987.691.6
ScreenSpotPro61.623.427.743.6

Poki Game

모델2048cubinkoenergyfree-the-keyGem-11hex-frvrInfinity-LoopMaze:Path-of-Lightshapessnake-solverwood-blocks-3dyarn-untanglelaser-maze-puzzletiles-master
OpenAI CUA31.040.0032.800.0046.2792.2523.0835.0052.1842.862.0244.5680.0078.27
...
Minecraft
작업 유형 (Task Type)작업 이름 (Task Name)VPTDreamerV3이전 SOTA (Previous SOTA)UI-TARS-1.5 w/o ThoughtUI-TARS-1.5 w/ Thought
블록 채굴 (Mine Blocks)(oak_log)0.81.01.01.01.0
...200개 작업 평균 (200 Tasks Avg.)0.060.030.320.350.42
몹 처치 (Kill Mobs)(mooshroom)0.00.00.10.30.4
(zombie)0.40.10.60.70.9
(chicken)0.10.00.40.50.6
100개 작업 평균 (100 Tasks Avg.)0.040.030.180.250.31

여기에서 우리는 OSWorld 벤치마크(benchmark)에서 UI-TARS의 다양한 모델 규모(model scales)에 따른 성능을 비교합니다.

벤치마크 유형 (Benchmark Type)벤치마크 (Benchmark)UI-TARS-72B-DPOUI-TARS-1.5-7BUI-TARS-1.5
컴퓨터 사용 (Computer Use)OSWorld24.627.542.5
GUI 그라운딩 (GUI Grounding)ScreenSpotPro38.149.661.6

UI-TARS-1.5가 멀티모달 에이전트 (multimodal agent) 역량에서 상당한 진보를 보여주지만, 우리는 몇 가지 중요한 한계점을 인지하고 있습니다:

오용 (Misuse): CAPTCHA와 같은 인증 과제를 성공적으로 통과하는 것을 포함하여 GUI 작업에서의 향상된 성능으로 인해, UI-TARS-1.5는 승인되지 않은 접근이나 보호된 콘텐츠의 자동화에 오용될 잠재적 가능성이 있습니다. 이 위험을 완화하기 위해 광범위한 내부 안전 평가가 진행 중입니다.

연산 (Computation): UI-TARS-1.5는 특히 대규모 작업이나 확장된 게임 플레이 시나리오에서 여전히 상당한 연산 자원을 필요로 합니다.

환각 (Hallucination): UI-TARS-1.5는 특히 모호하거나 익숙하지 않은 환경에서 가끔 부정확한 설명을 생성하거나, GUI 요소를 잘못 식별하거나, 잘못된 추론을 바탕으로 최선이 아닌 행동을 취할 수 있습니다.

모델 규모 (Model scale): 출시된 UI-TARS-1.5-7B는 주로 일반적인 컴퓨터 사용 역량을 강화하는 데 중점을 두고 있으며, UI-TARS-1.5가 여전히 상당한 우위를 점하고 있는 게임 기반 시나리오에 특화되어 최적화되지는 않았습니다.

우리는 협력 연구를 촉진하기 위해 가장 성능이 뛰어난 UI-TARS-1.5 모델에 대한 초기 연구 접근 권한을 제공합니다. 관심 있는 연구자들은 TARS@bytedance.com으로 연락해 주시기 바랍니다.

앞으로 우리는 UI-TARS가 실제 세계의 동작을 수행할 수 있는 점점 더 정교한 에이전트적 경험 (agentic experiences)으로 진화하여, doubao와 같은 플랫폼이 여러분을 위해 더 복잡한 작업들을 완수할 수 있도록 지원하는 모습을 그려보고 있습니다 :)

만약 저희의 논문과 모델이 귀하의 연구에 유용하다면, 자유롭게 인용 (cite)해 주시기 바랍니다.

@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
...

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0