HuggingFace헤드라인2026. 05. 04. 15:56

Smol2Operator: 컴퓨터 사용을 위한 훈련 후 GUI 에이전트

요약

본 기술 기사는 GUI 자동화를 위한 비전-언어 모델(VLM) 훈련의 종합적인 접근 방식을 제시합니다. 연구진은 작은 VLM인 SmolVLM2-2.2B-Instruct를 기반으로, 멀티 페이즈 훈련 전략을 통해 모델에 먼저 GUI 그라운딩 능력을 부여하고 이후 에이전틱 추론 능력을 향상시키는 두 단계의 과정을 거칩니다. 이 과정에서 다양한 데이터셋의 행동 표현 표준화 및 통합을 위한 포괄적인 데이터 변환 파이프라인을 구축하는 것이 핵심입니다.

핵심 포인트

GUI 자동화를 위해 VLM에 그라운딩 능력과 에이전틱 추론 능력을 순차적으로 부여하는 멀티 페이즈 훈련 전략을 사용합니다.
다양한 GUI 행동 데이터셋의 비표준화된 행동 표현(함수 서명, 매개변수 등)을 표준화하고 통합하기 위한 포괄적인 데이터 변환 파이프라인을 개발했습니다.
베이스 모델로 SmolVLM2-2.2B-Instruct를 활용하여 훈련 과정의 효과와 전 과정을 투명하게 보여줍니다.
ScreenSpot-v2 같은 인식 벤치마크를 통해 GUI 요소 이해 및 위치 찾기 능력을 평가합니다.

TL;DR: 이 작업은 경량 비전-언어 모델이 GUI 기반 기술을 습득하고 에이전틱 GUI 코더로 진화할 수 있음을 보여줍니다. 우리는 완전한 재현성을 가능하게 하고 추가 연구를 촉진하기 위해 모든 훈련 레시피, 데이터 처리 도구, 결과 모델, 데모 및 데이터셋을 공개합니다 🫡. 컬렉션을 여기에서 찾을 수 있습니다.

서론
1. 데이터 변환과 통합 행동 공간
1. 단계 1: 제로부터 인식까지
1. 단계 2: 인식에서 인지까지
1. 모든 것이 오픈소스입니다
1. 결론
다음에는 무엇이 있을까요?

그래픽 사용자 인터페이스 (GUI) 자동화는 컴퓨터 비전의 가장 도전적인 최전방 분야 중 하나입니다. 사용자를 인터페이스를 보고 상호작용할 수 있는 모델을 개발하면 AI 에이전트가 모바일, 데스크톱 및 웹 플랫폼을 탐색할 수 있습니다. 이는 디지털 상호작용의 미래를 재구성할 것입니다.

이 블로그 포스트에서는 멀티 페이즈 훈련 전략을 통해 GUI 자동화를 위한 비전-언어 모델을 훈련하는 종합적인 접근법을 제시합니다. 제로 그라운딩 능력을 가진 모델에서 그래픽 인터페이스를 이해하고 상호작용할 수 있는 에이전틱 코더로 변환하는 방법을 보여줍니다.

우리의 목표는 SOTA 모델을 목표로 하는 것이 아니라, 데이터 처리부터 모델 훈련까지의 전체 과정을 보여주는 것이며, 이를 통해 VLMs 의 GUI 기반 능력을 해제하는 방법을 보여주는 것입니다.

GUI 능력은 인터페이스 이해와 정밀한 요소 로컬라이제이션을 결합합니다. 이러한 능력은 모델이 클릭, 입력 등 저 수준의 GUI 행동으로 고수준 작업을 번역할 수 있게 합니다.

우리의 접근법은 SmolVLM2-2.2B-Instruct 를 베이스라인 모델로 활용하며, 이는 초기에 GUI 작업의 그라운딩 능력을 갖지 않는 작은 강력한 비전-언어 모델입니다. 이는 우리 훈련 방법론의 효과를 보여주는 이상적인 후보입니다. 우리의 두 단계 훈련 과정을 통해 우리는 먼저 모델에 그라운딩 능력을 부여하고, Supervised Fine-Tuning (SFT) 를 사용하여 에이전틱 추론 능력을 향상시킵니다.

우리는 확립된 인식 벤치마크인 ScreenSpot-v2 에서 우리 접근법을 평가하며, 이는 모델이 스크린샷 내의 요소를 이해하고 위치를 찾는 능력을 테스트합니다. 우리의 과정은 AGUVIS 논문에서 영감을 받아, 그들의 세심하게 큐레이션된 데이터셋을 활용하여 기초 작업을 구축합니다.

베이스 모델 SmolVLM2-2.2B-Instruct 의 훈련 단계 동안 ScreenSpot-v2 성능의 진화.

이 섹션은 여러 데이터셋에서 다양한 GUI 행동 형식을 단일 통합 형식으로 변환하는 방법을 설명합니다. 함수 이름, 서명 및 매개변수를 표준화함으로써 일관되고 고품질의 데이터를 생성하여 효과적인 모델 훈련의 기초를 형성합니다.

여러 GUI 자동화 데이터셋과 작업할 때 가장 주요한 도전 과제 중 하나는 행동 표현의 표준 부재입니다. 다른 데이터셋은 다양한 함수 서명, 매개변수 명명 규칙 및 행동 분류법을 사용하며, 이는 다양한 데이터 소스를 통한 통합 모델 훈련을 어렵게 만듭니다.

우리는 AGUVIS 에서 원래 사용된 오픈소스 데이터셋 (xlangai/aguvis-stage1, xlangai/aguvis-stage2) 을 취하고 통합 행동 공간을 생성하기 위해 포괄적인 데이터 변환 파이프라인을 구현했습니다. 우리의 접근법은 다음과 같습니다:

함수 파싱 및 정규화: 우리는 다양한 형식의 모든 데이터셋에서 함수 호출을 추출하고 파싱할 수 있는 함수 파서 (seeutils/function_parser.py) 를 개발했습니다. 이 파서는 임의의 함수 서명 형식을 지원하며, 복잡한 매개변수 구조를 처리하고 올바른 매개변수 순서로 함수 호출을 재구성할 수 있습니다.행동 공간 통합: 우리는 모든 원래 행동 표현을 표준화된 함수 명칭 및 인수 구조로 변환하는 포괄적인 행동 변환 시스템 (seepreprocessing/action_conversion.py) 을 구현했습니다. 이 과정은 다른 데이터셋 간의 함수 서명에서 상당한 불일치를 강조하며, 다음을 가능하게 했습니다:

원하지 않는 또는 중복된 행동을 제거
매개변수 표준화

AI 자동 생성 콘텐츠

원문 바로가기

Smol2Operator: 컴퓨터 사용을 위한 훈련 후 GUI 에이전트

요약

핵심 포인트

댓글