Holo1: GUI 에이전트 Surfer-H를 구동하는 새로운 GUI 자동화 VLM 패밀리

요약

Holo1은 딥 웹 UI 이해와 정밀한 로컬라이제이션을 위해 설계된 오픈 소스 Action VLM(Vision-Language Model) 패밀리입니다. 이 모델은 Qwen2.5-VL 아키텍처를 기반으로 하며, WebClick과 같은 표준화된 벤치마크에서 높은 정확도를 보여줍니다. Holo1에 의존하는 Surfer-H는 Policy, Localizer, Validator의 모듈식 아키텍처를 갖춘 웹 네이티브 에이전트로, 브라우저만 사용하여 인간처럼 복잡한 웹 작업을 수행할 수 있게 합니다.

핵심 포인트

Holo1은 딥 웹 UI 이해 및 정밀 좌표 기반 로컬라이제이션을 위한 오픈 소스 Action VLM입니다.
Holo1-7B 모델은 일반적인 UI 로컬라이제이션 벤치마크에서 높은 평균 정확도(76.2%)를 달성했습니다.
Surfer-H는 Holo1에 의존하는 모듈식 웹 에이전트로, 계획(Policy), 시각적 이해(Localizer), 검증(Validator)의 세 가지 구성 요소로 이루어져 있습니다.
이 솔루션은 높은 정확도(92.2%)를 유지하면서 비용 효율성($0.13)을 달성하여 웹 자동화 분야의 새로운 기준을 제시합니다.

Surfer-H 는 인간처럼 브라우저와 상호작용하는 웹 네이티브 에이전트로, Holo1 에 의존합니다.

Holo1 은 딥 웹 UI 이해 및 정밀한 로컬라이제이션을 위해 특별히 설계된 오픈 소스 Action VLM 의 첫 번째 패밀리입니다. 이 패밀리는 Holo1-3B 와 Holo1-7B 모델을 포함하며, 후자는 일반적인 UI 로컬라이제이션 벤치마크에서 76.2% 의 평균 정확도를 달성하여 소형 모델 중 최고 수준입니다. H Company 는 Hugging Face 에서 이러한 모델을 오픈 소스로 공개하고 있으며, 여기에 인간과 유사한 UI 작업을 1,639 개 포함하는 WebClick 벤치마크도 함께 제공했습니다.

Holo1 모델은 Qwen2.5-VL 아키텍처에 기반하며 transformers 와 완전히 호환됩니다. 여기 간단한 사용 예시를 제공합니다. 모델을 로드하고 프로세서를 로드하는 방법은 다음과 같습니다.

from transformers import AutoModelForImageTextToText, AutoProcessor
import torch
model = AutoModelForImageTextToText.from_pretrained(
...

이미지를 로드하고 전처리합니다.

image_url = "https://huggingface.co/Hcompany/Holo1-3B/resolve/main/calendar_example.jpg"
guidelines = "GUI 이미지에서 내 지시에 따라 요소를 로컬라이제이션하고 좌표 (x, y) 형태의 클릭 위치를 출력하세요. x 는 왼쪽 가장자리로부터 픽셀 수, y 는 상단 가장자리로부터 픽셀 수입니다."
instruction = "7 월 14 일의 체크아웃 날짜로 선택하세요"
...

이제 추론할 수 있습니다.

generated_ids = model.generate(**inputs, max_new_tokens=128)
decoded = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
# Click(352, 348)

웹 자동화는 기업용 AI 의 가장 실용적인 응용 분야 중 하나이지만, 지금까지 솔루션은 성능을 희생하여 비용 효율성을 포기하는 경향이 있었습니다. Hugging Face 에서 Holo1 Action 모델을 공개함으로써 사용자는 실제 웹 작업에서 92.2% 의 정확도를 달성하면서 단 $0.13 과의 비용으로 웹 자동화 솔루션을 구현할 수 있습니다.

Surfer-H 는 오픈 웨이트 모델인 Holo1 패밀리 에 의존합니다. 이는 읽기, 사고, 클릭, 스크롤링, 타이핑, 유효성 검증을 수행하는 완전한 웹 작업 자동화를 위한 모듈러 아키텍처입니다. 유연하고 모듈러로 설계되었으며 세 개의 독립적인 구성 요소로 이루어져 있습니다: 에이전트의 행동을 계획하고 구동하는 Policy 모델, 정밀한 상호작용을 위해 시각적 UI 를 이해하는 Localizer 모델, 그리고 작업이 성공적으로 완료되었는지 확인하는 Validator 모델입니다. 다른 에이전트가 커스텀 API 나 취약한 래퍼에 의존하는 것과 달리, Surfer-H 는 브라우저만으로 작동합니다. 실제 사용자처럼.

이러한 솔루션들은 웹 자동화에서 새로운 경계를 이루며, WebVoyager 벤치마크에서 최상의 로컬라이제이션 성능을 달성하고 비용 효율적인 웹 탐색의 Pareto 경계선을 설정했습니다:

Holo1 를 사용하여 무엇을 구축하시겠습니까? 이 블로그 포스트 및 모델 저장소의 토론 탭에서 만나보겠습니다!

@misc{andreux2025surferhmeetsholo1costefficient,
title={Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights},
author={Mathieu Andreux and Breno Baldas Skuk and Hamza Benchekroun and Emilien Biré and Antoine Bonnet and Riaz Bordie and Matthias Brunel and Pierre-Louis Cedoz and Antoine Chassang and Mickaël Chen and Alexandra D. Constantinou and Antoine d'Andigné and Hubert de La Jonquière and Aurélien Delfosse and Ludovic Denoyer and Alexis Deprez and Augustin Derupti and Michael Eickenberg and Mathïs Federico and Charles Kantor and Xavier Koegler and Yann Labbé and Matthew C. H. Lee and Erwan Le Jumeau de Kergaradec and Amir Mahla and Avshalom Manevich and Adrien Maret and Charles Masson and Rafaël Maurin and Arturo Mena and Philippe Modard and Axel Moyal and Axel Nguyen Kerbel and Julien Revelle and Mats L. Richter and María Santos and Laurent Sifre and Maxime Theillard and Marc Thibault and Louis Thiry and Léo Tronchon and Nicolas Usunier and Tony Wu},
...

AI 자동 생성 콘텐츠

원문 바로가기

Holo1: GUI 에이전트 Surfer-H를 구동하는 새로운 GUI 자동화 VLM 패밀리

요약

핵심 포인트

댓글