본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 04. 15:56

Smol2Operator: 컴퓨터 사용을 위한 훈련 후 GUI 에이전트

요약

본 기술 기사는 GUI 자동화를 위한 비전-언어 모델(VLM) 훈련의 종합적인 접근 방식을 제시합니다. 연구진은 작은 VLM인 SmolVLM2-2.2B-Instruct를 기반으로, 멀티 페이즈 훈련 전략을 통해 모델에 먼저 GUI 그라운딩 능력을 부여하고 이후 에이전틱 추론 능력을 향상시키는 두 단계의 과정을 거칩니다. 이 과정에서 다양한 데이터셋의 행동 표현 표준화 및 통합을 위한 포괄적인 데이터 변환 파이프라인을 구축하는 것이 핵심입니다.

핵심 포인트

  • GUI 자동화를 위해 VLM에 그라운딩 능력과 에이전틱 추론 능력을 순차적으로 부여하는 멀티 페이즈 훈련 전략을 사용합니다.
  • 다양한 GUI 행동 데이터셋의 비표준화된 행동 표현(함수 서명, 매개변수 등)을 표준화하고 통합하기 위한 포괄적인 데이터 변환 파이프라인을 개발했습니다.
  • 베이스 모델로 SmolVLM2-2.2B-Instruct를 활용하여 훈련 과정의 효과와 전 과정을 투명하게 보여줍니다.
  • ScreenSpot-v2 같은 인식 벤치마크를 통해 GUI 요소 이해 및 위치 찾기 능력을 평가합니다.

TL;DR: 이 작업은 경량 비전-언어 모델이 GUI 기반 기술을 습득하고 에이전틱 GUI 코더로 진화할 수 있음을 보여줍니다. 우리는 완전한 재현성을 가능하게 하고 추가 연구를 촉진하기 위해 모든 훈련 레시피, 데이터 처리 도구, 결과 모델, 데모 및 데이터셋을 공개합니다 🫡. 컬렉션을 여기에서 찾을 수 있습니다.

  • 서론
    1. 데이터 변환과 통합 행동 공간
    1. 단계 1: 제로부터 인식까지
    1. 단계 2: 인식에서 인지까지
    1. 모든 것이 오픈소스입니다
    1. 결론
  • 다음에는 무엇이 있을까요?

그래픽 사용자 인터페이스 (GUI) 자동화는 컴퓨터 비전의 가장 도전적인 최전방 분야 중 하나입니다. 사용자를 인터페이스를 보고 상호작용할 수 있는 모델을 개발하면 AI 에이전트가 모바일, 데스크톱 및 웹 플랫폼을 탐색할 수 있습니다. 이는 디지털 상호작용의 미래를 재구성할 것입니다.

이 블로그 포스트에서는 멀티 페이즈 훈련 전략을 통해 GUI 자동화를 위한 비전-언어 모델을 훈련하는 종합적인 접근법을 제시합니다. 제로 그라운딩 능력을 가진 모델에서 그래픽 인터페이스를 이해하고 상호작용할 수 있는 에이전틱 코더로 변환하는 방법을 보여줍니다.

우리의 목표는 SOTA 모델을 목표로 하는 것이 아니라, 데이터 처리부터 모델 훈련까지의 전체 과정을 보여주는 것이며, 이를 통해 VLMs 의 GUI 기반 능력을 해제하는 방법을 보여주는 것입니다.

GUI 능력은 인터페이스 이해와 정밀한 요소 로컬라이제이션을 결합합니다. 이러한 능력은 모델이 클릭, 입력 등 저 수준의 GUI 행동으로 고수준 작업을 번역할 수 있게 합니다.

우리의 접근법은 SmolVLM2-2.2B-Instruct 를 베이스라인 모델로 활용하며, 이는 초기에 GUI 작업의 그라운딩 능력을 갖지 않는 작은 강력한 비전-언어 모델입니다. 이는 우리 훈련 방법론의 효과를 보여주는 이상적인 후보입니다. 우리의 두 단계 훈련 과정을 통해 우리는 먼저 모델에 그라운딩 능력을 부여하고, Supervised Fine-Tuning (SFT) 를 사용하여 에이전틱 추론 능력을 향상시킵니다.

우리는 확립된 인식 벤치마크인 ScreenSpot-v2 에서 우리 접근법을 평가하며, 이는 모델이 스크린샷 내의 요소를 이해하고 위치를 찾는 능력을 테스트합니다. 우리의 과정은 AGUVIS 논문에서 영감을 받아, 그들의 세심하게 큐레이션된 데이터셋을 활용하여 기초 작업을 구축합니다.

베이스 모델 SmolVLM2-2.2B-Instruct 의 훈련 단계 동안 ScreenSpot-v2 성능의 진화.

이 섹션은 여러 데이터셋에서 다양한 GUI 행동 형식을 단일 통합 형식으로 변환하는 방법을 설명합니다. 함수 이름, 서명 및 매개변수를 표준화함으로써 일관되고 고품질의 데이터를 생성하여 효과적인 모델 훈련의 기초를 형성합니다.

여러 GUI 자동화 데이터셋과 작업할 때 가장 주요한 도전 과제 중 하나는 행동 표현의 표준 부재입니다. 다른 데이터셋은 다양한 함수 서명, 매개변수 명명 규칙 및 행동 분류법을 사용하며, 이는 다양한 데이터 소스를 통한 통합 모델 훈련을 어렵게 만듭니다.

우리는 AGUVIS 에서 원래 사용된 오픈소스 데이터셋 (xlangai/aguvis-stage1, xlangai/aguvis-stage2) 을 취하고 통합 행동 공간을 생성하기 위해 포괄적인 데이터 변환 파이프라인을 구현했습니다. 우리의 접근법은 다음과 같습니다:

함수 파싱 및 정규화: 우리는 다양한 형식의 모든 데이터셋에서 함수 호출을 추출하고 파싱할 수 있는 함수 파서 (seeutils/function_parser.py) 를 개발했습니다. 이 파서는 임의의 함수 서명 형식을 지원하며, 복잡한 매개변수 구조를 처리하고 올바른 매개변수 순서로 함수 호출을 재구성할 수 있습니다.행동 공간 통합: 우리는 모든 원래 행동 표현을 표준화된 함수 명칭 및 인수 구조로 변환하는 포괄적인 행동 변환 시스템 (seepreprocessing/action_conversion.py) 을 구현했습니다. 이 과정은 다른 데이터셋 간의 함수 서명에서 상당한 불일치를 강조하며, 다음을 가능하게 했습니다:

  • 원하지 않는 또는 중복된 행동을 제거
  • 매개변수 표준화

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0