bytedance/UI-TARS

요약

UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화 및 GUI 에이전트 시스템입니다. 최신 버전인 UI-TARS-2는 GUI, 게임, 코드, 도구 사용 능력이 대폭 강화되었으며, 기초 아키텍처와 강화학습을 통해 고급 추론 능력을 통합했습니다. 이 모델은 데스크톱 환경(마우스 클릭, 키보드 단축키 등)과 모바일 기기 환경에 맞는 다양한 프롬프트 템플릿을 제공하여 복잡한 멀티모달 상호작용 시스템 개발 및 평가에 활용될 수 있습니다.

핵심 포인트

UI-TARS는 로컬 개인 기기에서 작동하는 웹 자동화/GUI 에이전트입니다.
UI-TARS-2 버전은 GUI, 게임, 코드, 도구 사용 능력이 강화되어 복잡한 작업 통합이 가능합니다.
모델은 고급 추론 능력과 적응성을 향상시키기 위해 기초 아키텍처와 강화학습을 활용했습니다.
데스크톱 환경(Windows/Linux/macOS) 및 모바일 기기 환경에 최적화된 세 가지 프롬프트 템플릿을 제공합니다.
다양한 표준 벤치마크에서 높은 성능을 보여주며, 특히 OSworld와 Windows Agent Arena 등에서 우수한 결과를 달성했습니다.

🌐 Website | 🤗 Hugging Face Models
| 🔧 Deployment | 📑 Paper |
🖥️ UI-TARS-desktop

🏄 Midscene (Browser Automation) | 🫨 Discord

저희는 사용자의 **로컬 개인 기기 (local personal device)**에서 작동할 수 있는 UI-TARS-desktop 버전도 제공합니다. 이를 사용하려면 https://github.com/bytedance/UI-TARS-desktop 을 방문해 주세요. 웹 자동화 (web automation)에서 UI-TARS를 사용하려면 오픈 소스 프로젝트인 Midscene.js를 참고하실 수 있습니다.
❗참고: Qwen 2.5vl 기반 모델은 객체를 그라운딩 (grounding)하기 위해 절대 좌표 (absolute coordinates)를 사용하므로, 이 가이드의 좌표 처리 방법에 관한 설명을 참고해 주시기 바랍니다.

🌟 2025.09.04: UI-TARS-1.5에서 대폭 업그레이드되어 GUI, 게임 (Game), 코드 (Code) 및 도구 사용 (Tool Use) 능력이 강화된 UI-TARS-2의 출시를 발표하게 되어 기쁩니다. 이는 복잡한 작업을 위해 여러 능력을 원활하게 통합할 수 있는

최근 논문에서 소개된 기초 아키텍처 (foundational architecture)를 활용하여, UI-TARS-1.5는 강화학습 (reinforcement learning)을 통해 가능해진 고급 추론 (advanced reasoning) 능력을 통합합니다. 이를 통해 모델은 행동을 취하기 전에 자신의 생각을 통해 추론할 수 있으며, 특히 추론 시간 스케일링 (inference-time scaling) 측면에서 성능과 적응성을 크게 향상시킵니다. 우리의 새로운 1.5 버전은 다양한 표준 벤치마크 (benchmarks)에서 최첨단 (state-of-the-art) 결과를 달성하며, 강력한 추론 능력과 이전 모델 대비 눈에 띄는 개선 사항을 입증했습니다.

모델을 빠르게 시작할 수 있도록 아래 단계들을 순서대로 따를 것을 권장합니다. 이 단계들은 배포 (deployment)부터, 모델이 귀하의 환경에서 행동을 취할 수 있도록 하는 예측 후처리 (prediction post-processing) 과정을 안내합니다.

👉 배포 및 추론 (Deployment and Inference). 여기에는 huggingface 엔드포인트를 사용한 모델 배포 및 첫 번째 예측을 실행하는 방법에 대한 지침이 포함되어 있습니다.

pip install ui-tars
# 또는
uv pip install ui-tars

from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code
response = "Thought: Click the button\nAction: click(start_box='(100,200)')"
original_image_width, original_image_height = 1920, 1080
...

좌표 처리 (coordinate processing)를 더 잘 이해할 수 있도록, 좌표 처리 시각화 (coordinates processing visualization) 가이드도 함께 제공합니다.

다양한 기기 환경과 작업 복잡성을 수용하기 위해, codes/ui_tars/prompt.py에 있는 다음 세 가지 프롬프트 템플릿 (prompt templates)은 GUI 에이전트 (agents)가 적절한 행동을 생성하도록 설계되었습니다. 귀하의 사용 사례에 가장 적합한 템플릿을 선택하세요:

권장 대상: Windows, Linux 또는 macOS와 같은 **데스크톱 환경 (desktop environments)**에서의 GUI 작업.

특징:

일반적인 데스크톱 동작 지원: 마우스 클릭 (단일, 이중, 우클릭), 드래그 동작, 키보드 단축키, 텍스트 입력, 스크롤 등.
브라우저 탐색, 오피스 소프트웨어 상호작용, 파일 관리 및 기타 데스크톱 기반 작업에 이상적임.

권장 대상: **모바일 기기 (mobile devices) 또는 Android 에뮬레이터 (emulators)**에서의 GUI 작업.

주요 기능 (Features):

모바일 전용 동작 포함:
long_press (길게 누르기), open_app (앱 열기), press_home (홈 버튼 누르기), press_back (뒤로 가기 버튼 누르기).
앱 실행, 뷰 스크롤 (scrolling views), 입력 필드 채우기, 모바일 앱 내 탐색에 적합합니다.

권장 대상: 오직 **동작 출력 (action output)**에만 집중하는 가벼운 작업, 또는 모델 학습 및 평가 용도.

주요 기능 (Features):

추론 (Thought) 없이 오직 Action (동작)만을 출력합니다.
그라운딩 능력 (grounding capability)을 평가하는 데 유용합니다.

멀티모달 상호작용 시스템 (multimodal interaction systems)을 개발하거나 평가할 때, 대상 플랫폼 (데스크톱 vs 모바일)에 따라 적절한 프롬프트 템플릿 (prompt template)을 선택하십시오.

온라인 벤치마크 평가 (Online Benchmark Evaluation)

벤치마크 유형	벤치마크	UI-TARS-1.5	OpenAI CUA	Claude 3.7	이전 SOTA
Computer Use (컴퓨터 사용)	OSworld (100 steps)	42.5	36.4	28	38.1 (200 step)
	Windows Agent Arena (50 steps)	42.1	-	-	29.8
Browser Use (브라우저 사용)	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
Phone Use (전화 사용)	Android World	64.2	-	-	59.5

그라운딩 능력 평가 (Grounding Capability Evaluation)

벤치마크	UI-TARS-1.5	OpenAI CUA	Claude 3.7	이전 SOTA
ScreenSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Poki Game

모델	2048	cubinko	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	0.00	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
...
Minecraft

작업 유형 (Task Type)	작업 이름 (Task Name)	VPT	DreamerV3	이전 SOTA (Previous SOTA)	UI-TARS-1.5 w/o Thought	UI-TARS-1.5 w/ Thought
블록 채굴 (Mine Blocks)	(oak_log)	0.8	1.0	1.0	1.0	1.0
...	200개 작업 평균 (200 Tasks Avg.)	0.06	0.03	0.32	0.35	0.42
몹 처치 (Kill Mobs)	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100개 작업 평균 (100 Tasks Avg.)	0.04	0.03	0.18	0.25	0.31

여기에서 우리는 OSWorld 벤치마크(benchmark)에서 UI-TARS의 다양한 모델 규모(model scales)에 따른 성능을 비교합니다.

벤치마크 유형 (Benchmark Type)	벤치마크 (Benchmark)	UI-TARS-72B-DPO	UI-TARS-1.5-7B	UI-TARS-1.5
컴퓨터 사용 (Computer Use)	OSWorld	24.6	27.5	42.5
GUI 그라운딩 (GUI Grounding)	ScreenSpotPro	38.1	49.6	61.6

UI-TARS-1.5가 멀티모달 에이전트 (multimodal agent) 역량에서 상당한 진보를 보여주지만, 우리는 몇 가지 중요한 한계점을 인지하고 있습니다:

오용 (Misuse): CAPTCHA와 같은 인증 과제를 성공적으로 통과하는 것을 포함하여 GUI 작업에서의 향상된 성능으로 인해, UI-TARS-1.5는 승인되지 않은 접근이나 보호된 콘텐츠의 자동화에 오용될 잠재적 가능성이 있습니다. 이 위험을 완화하기 위해 광범위한 내부 안전 평가가 진행 중입니다.

연산 (Computation): UI-TARS-1.5는 특히 대규모 작업이나 확장된 게임 플레이 시나리오에서 여전히 상당한 연산 자원을 필요로 합니다.

환각 (Hallucination): UI-TARS-1.5는 특히 모호하거나 익숙하지 않은 환경에서 가끔 부정확한 설명을 생성하거나, GUI 요소를 잘못 식별하거나, 잘못된 추론을 바탕으로 최선이 아닌 행동을 취할 수 있습니다.

모델 규모 (Model scale): 출시된 UI-TARS-1.5-7B는 주로 일반적인 컴퓨터 사용 역량을 강화하는 데 중점을 두고 있으며, UI-TARS-1.5가 여전히 상당한 우위를 점하고 있는 게임 기반 시나리오에 특화되어 최적화되지는 않았습니다.

우리는 협력 연구를 촉진하기 위해 가장 성능이 뛰어난 UI-TARS-1.5 모델에 대한 초기 연구 접근 권한을 제공합니다. 관심 있는 연구자들은 TARS@bytedance.com으로 연락해 주시기 바랍니다.

앞으로 우리는 UI-TARS가 실제 세계의 동작을 수행할 수 있는 점점 더 정교한 에이전트적 경험 (agentic experiences)으로 진화하여, doubao와 같은 플랫폼이 여러분을 위해 더 복잡한 작업들을 완수할 수 있도록 지원하는 모습을 그려보고 있습니다 :)

만약 저희의 논문과 모델이 귀하의 연구에 유용하다면, 자유롭게 인용 (cite)해 주시기 바랍니다.

@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
...

AI 자동 생성 콘텐츠

원문 바로가기

bytedance/UI-TARS

요약

핵심 포인트

댓글