DragOn: 드래그 기반 GUI 상호작용을 위한 벤치마크 및 데이터셋
요약
GUI 에이전트의 드래그 기반 상호작용 능력을 향상시키기 위한 새로운 벤치마크 및 데이터셋인 DragOn을 소개합니다. 텍스트 하이라이트, 셀 선택 등 4가지 도메인을 포함하며, 대규모 데이터셋을 통해 모델의 컴퓨터 사용 능력을 개선합니다.
핵심 포인트
- 드래그 접지(drag grounding) 데이터 부족 문제 해결
- 4가지 도메인(하이라이트, 셀 선택, 크기 조정, 슬라이더) 지원
- 286K 스크린샷과 3.5M 태스크를 포함한 대규모 데이터셋
- GPT, Claude, Qwen 등 다양한 모델 성능 검증
GUI 에이전트(GUI agents) — 그래픽 사용자 인터페이스(GUI)를 통해 데스크톱, 웹 브라우저 및 모바일 기기를 제어하는 시각 기반 모델 — 는 광범위한 디지털 작업을 자동화할 가능성을 보여줍니다. 수백만 규모의 데이터셋을 통해 클릭 접지(click-grounding) 분야에서는 상당한 진전이 이루어졌으나, 드래그 접지(drag grounding, 예: 드래그 앤 드롭(drag-and-drop), 스와이프(swipe), 하이라이트(highlight)) 데이터는 여전히 그 규모가 한 자릿수(order of magnitude) 수준으로 작으며, 현재의 모델들은 복잡한 드래그 기반 상호작용을 수행하는 데 한계가 있습니다. 우리는 텍스트 하이라이트(text highlighting), 셀 선택(cell selection), 요소 크기 조정(element resizing), 슬라이더 조작(slider manipulation)의 네 가지 도메인을 다루는 드래그 접지 벤치마크 및 학습 데이터셋인 DragOn을 소개합니다. 이 데이터셋은 286K개의 학습용 스크린샷과 3.5M개의 학습용 태스크, 그리고 2,000개의 예시로 구성된 별도의 평가 스위트(evaluation suite)를 포함합니다. 우리는 독점 모델(GPT, Claude)과 오픈 웨이트(open-weight) 모델(Qwen, Kimi, Holo), 그리고 우리의 학습 데이터로 미세 조정(fine-tuned)된 Qwen VLM을 평가합니다. 결과에 따르면, 우리의 데이터셋은 다운스트림 컴퓨터 사용(computer-use) 태스크에서 최신 모델(state-of-the-art models)의 성능을 향상시킬 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기