HuggingFace헤드라인2026. 05. 07. 07:28

ScreenSuite - GUI 에이전트 평가용 가장 포괄적인 평가 도구!

요약

ScreenSuite는 시각 언어 모델(VLM)을 다양한 GUI 에이전트 능력에 걸쳐 평가하기 위해 설계된 가장 포괄적인 벤치마킹 수열입니다. 이 도구는 Perception, Grounding, Single-step actions부터 Multi-step agents까지 아우르는 13개의 통합 벤치마크를 제공합니다. 특히 가상 머신 환경을 지원하고 접근성 트리 대신 시각 정보만을 사용하여 에이전트의 현실적이고 어려운 능력을 평가하는 데 중점을 두었습니다.

핵심 포인트

ScreenSuite는 GUI 에이전트를 위한 포괄적인 벤치마킹 수열로, Perception부터 Multi-step Agents까지 총 13개의 다양한 능력을 측정합니다.
평가 환경의 현실성을 높이기 위해 접근성 트리나 DOM 대신 '시각 정보(vision-only)'만을 사용하여 에이전트 성능을 평가합니다.
Multi-step Agent 테스트를 위해 E2B 데스크톱 원격 샌드박스 및 Docker 기반 Ubuntu/Android 가상 머신 환경을 지원하여 복잡한 작업을 시뮬레이션할 수 있습니다.
모든 프레임워크가 smolagents를 활용하며, 재현성과 사용 편의성을 높이기 위해 커스텀 Docker 컨테이너를 제공합니다.

TL;DR

지난 몇 주 동안 우리는 GUI 에이전트를 더 개방적이고 접근하기 쉬우며 통합하기 쉽게 만드는 데 전력을 다해 왔습니다. 이 과정에서 우리는 GUI 에이전트 성능을 평가하는 가장 큰 벤치마킹 수열을 만들었습니다 👉 ScreenSuite 를 소개합니다.

오늘 여러분과 함께할 것을 매우 기쁘게 생각합니다: ScreenSuite 는 시각 언어 모델 (VLMs) 을 다양한 에이전트 능력에 걸쳐 평가하는 가장 포괄적이고 쉬운 방법입니다!

간단히 말해, AI 에이전트는 가상 세계에서 행동하는 로봇입니다. (더 철저한 정의는 여기에서 확인하세요)

특히 "GUI 에이전트" 는 GUI 에서 사는 에이전트를 의미합니다. "내 데스크톱이나 스마트폰에서 클릭하고 탐색할 수 있는 에이전트" 를 생각해보세요. Claude Computer Use 와 같습니다.

이는 본질적으로 에이전트를 구동하는 AI 모델이 "이 엑셀 열을 채워넣으세요" 같은 작업을 함께 GUI 의 스크린샷과 함께 부여받게 된다는 것을 의미합니다. 이 정보를 바탕으로 시스템에 행동을 결정합니다: click(x=130, y=540)

웹 브라우저 열기, type("2025 년 XYZ 값")

, scroll(down=2)

더 읽기 위해... GUI 에이전트가 작동하는 것을 보려면 Qwen2.5-VL-72B 로 구동되는 Open Computer Agent 를 시도해 보세요.

좋은 GUI 에이전트는 우리가 하는 것처럼 컴퓨터를 탐색할 수 있어야 하며, 모든 컴퓨터 작업을 해제합니다: Google Maps 를 스크롤하기, 파일 편집하기, 온라인에서 상품 구매하기. 이는 평가하기 어려운 다양한 능력을 포함합니다.

문헌은 예를 들어 Xu et al. (2025) 또는 Qin et al. (2025) 가 일반적으로 GUI 에이전트 능력을 여러 범주로 나누는 경향이 있습니다:

Perception: 스크린에 표시된 정보를 올바르게 인식하는 것
Grounding: 요소의 위치를 이해하는 것 - 올바른 곳을 클릭하기 위해 필수적입니다
Single step actions: 한 번의 행동으로 지시를 올바르게 해결하는 것
Multi-step agents: GUI 환경에서 여러 번의 행동을 통해 더 높은 수준의 목표를 해결하는 것.

따라서 우리의 첫 번째 기여는 이 GUI 에이전트 능력을 전체 범위를 아우르는 13 개의 벤치마크를 수집하고 통합하는 포괄적인 수열을 제공하는 것입니다.

위에서 나열된 마지막 카테고리를 살펴보면, Multi-step 에이전트 능력을 평가하는 것은 특히 도전적입니다. 이는 Windows, Android, Ubuntu... 에이전트 환경을 실행하기 위해 가상 머신을 필요로 하기 때문입니다. 이를 해결하기 위해 우리는 E2B 데스크톱 원격 샌드박스를 지원하며, Docker 에서 Ubuntu 또는 Android 가상 머신을 쉽게 실행할 수 있도록 새로부터 만들었습니다!

Category	Benchmark	Environment	Sample count
Perception / Grounding 👁️	ScreenQA-Short	Mobile	8.4k
ScreenQA-Complex	Mobile	11.8k
ScreenSpot-v2	Desktop	1.3k
...	Single-Step Actions 🎯	Showdown-clicks	Web
AndroidControl	Mobile	3k
Multimodal-Mind2web	Web	6.4k
Multi-Step Agents 🐾	AndroidWorld (incl MobileMiniWob)	Mobile	116 tasks, infinite
OSWorld	Desktop	369
BrowseComp	Web	1.27k
...

Implementation details

우리는 모듈성과 일관성을 염두에 두고 벤치마크 수열을 신중하게 설계했습니다. 작업과 환경 간의 강력한 정렬을 보장합니다. 필요할 때, 특히 온라인 벤치마크를 위해 우리는 에이전트 실행 및 오케스트레이션을 간소화하기 위해 smolagents 를 프레임워크 레이어로 활용합니다.

재현성과 사용 편의성을 지원하기 위해 우리는 로컬 배포를 가능하게 하는 Ubuntu Desktop 또는 Android 환경의 커스텀 Dockerized 컨테이너를 구축했습니다.

기존 많은 GUI 벤치마크가 시각 입력과 함께 접근성 트리 (accessibility tree) 나 다른 메타데이터에 의존하는 것과 달리, 저희 스택은 의도적으로 시각만 (vision-only) 입니다. 이는 일부 기존 리더보드에서 다른 점수를 줄 수 있지만, 인간이 그래픽 인터페이스를 인식하고 상호작용하는 방식을 더 잘 반영하여 보다 현실적이고 어려운 환경을 조성한다고 판단합니다.

– 모든 에이전트 프레임워크 (Android World, OSWorld, GAIAWeb, Mind2Web) 는 smolagents 를 사용하며 접근성 트리나 DOM 을 추가하지 않고 시각만 (vision only) 으로 의존합니다 (다른 출처에서 보고된 평가 설정과 대조적으로).
– Mind2Web (Multimodal) 은 원래 접근성 트리와 스크린샷을 기반으로 요소 이름 기반 다중 선택 (element-name-based multi-choice selection) 을 사용했으나, 이후 시각만 (vision only) 으로 경계 상자 내 클릭 정밀도 (click precision within bounding boxes) 를 사용하여 적응되었는데, 이는 작업 난이도를 크게 증가시켰습니다.

우리는 벤치마크에서 선도적인 VLMs 를 평가했습니다.

3B 에서 72B 까지 Qwen-2.5-VL 시리즈 모델들. 이 모델들은 놀라운 로컬라이제이션 (localization) 능력을 가지고 있으며, 이미지 내 요소의 좌표를 알고 있어 GUI 에이전트가 정확하게 클릭할 수 있도록 적합합니다.
ByteDance 의 올라운드 모델인 UI-Tars-1.5-7B.
H company 의 최신 모델인 Holo1-7B, 크기에 비해 매우 뛰어난 로컬라이제이션 성능을 보여줍니다.
GPT-4o

우리의 점수는 다양한 출처에서 보고된 점수와 일반적으로 일치합니다! 단, 우리는 시각만 (vision only) 으로 평가하여 일부 차이가 발생한다는 점을 제외하면, 구현 세부사항을 참조하세요.

💡 ScreenSuite 는 산업계에서 발표된 벤치마크를 정확히 재현하려는 의도가 아닙니다. 우리는 시각 기반 GUI 에이전트 능력을 평가합니다. 따라서 Mind2Web 와 같은 벤치마크에서 다른 벤치마크는 DOM 나 접근성 트리 등 정보 풍부한 컨텍스트의 뷰를 에이전트에 제공했을 때, 저희 평가 설정은 훨씬 더 어렵습니다.

저장소를 방문하세요.

서브모듈을 포함하여 저장소를 클론합니다:
git clone --recurse-submodules git@github.com:huggingface/screensuite.git
패키지를 설치합니다:
uv sync --extra submodules --python 3.11
실행합니다
python run.py
또는 더 세밀한 제어, 예를 들어 여러 모델을 병렬로 평가하는 경우를 위해 실행합니다
python examples/run_benchmarks.py
또는 다단계 벤치마크 (multistep benchmarks) 를 실행하려면 bare-metal machine 에 배포해야 하며 데스크톱/모바일* 환경 *에뮬레이터 (see README.md) 를 실행하고 배포해야 합니다.

일관되고 의미 있는 평가를 실행하면 Eleuther LM 평가 harness, Open LLM 리더보드 및 Chatbot Arena 와 같이 커뮤니티가 이 분야에서 빠르게 반복할 수 있도록 하고 진행할 수 있습니다.

앞으로 달릴 수 있는 월에 더 강력한 오픈 모델들을 기대하고 싶습니다. 다양한 작업을 신뢰성 있게 실행할 수 있으며 심지어 로컬에서 실행할 수 있습니다!

이 노력을 지원하기 위해:

⭐️ ScreenSuite 저장소를 스타 (star) 하시고 이슈/PR 에 피드백을 주세요!
👉 smolagents org 를 팔로우하여 최신 정보를 얻으세요.

AI 자동 생성 콘텐츠

원문 바로가기

ScreenSuite - GUI 에이전트 평가용 가장 포괄적인 평가 도구!

요약

핵심 포인트

댓글