arXiv논문2026. 05. 15. 16:18

Video2GUI: 일반화된 GUI Agent 사전 학습을 위한 대규모 상호작용 궤적 합성

요약

본 논문은 일반화된 GUI Agent 학습에 필요한 대규모 상호작용 궤적 데이터 부족 문제를 해결하기 위해, 레이블링되지 않은 인터넷 비디오에서 근거 기반(Grounded) GUI 상호작용 궤적을 자동으로 추출하는 Video2GUI 프레임워크를 제안합니다. 이 프레임워크를 활용하여 1,500개 이상의 애플리케이션과 웹사이트를 포괄하는 대규모 데이터셋 WildGUI를 구축했습니다. WildGUI로 Qwen2.5-VL 및 Mimo-VL 같은 모델을 사전 학습시킨 결과, 여러 GUI 관련 벤치마크에서 최첨단 성능에 근접하거나 능가하는 성능 향상을 입증했습니다.

핵심 포인트

일반화된 GUI Agent의 개발은 대규모 상호작용 데이터셋이 필수적이나, 기존 데이터는 수동 어노테이션과 좁은 도메인에 한계가 있었다.
Video2GUI는 레이블링되지 않은 인터넷 비디오에서 근거 기반(Grounded) GUI 상호작용 궤적을 자동으로 추출하는 완전 자동화된 프레임워크이다.
이 파이프라인으로 구축된 WildGUI 데이터셋은 1,500개 이상의 애플리케이션과 웹사이트를 포함하는 대규모 상호작용 궤적(1,200만 개)을 제공한다.
WildGUI로 사전 학습한 모델들은 여러 GUI grounding 및 액션 벤치마크에서 기존 대비 5-20%의 성능 향상을 보였다.

멀티모달 거대 언어 모델 (Multimodal Large Language Models)의 최근 발전은 그래픽 사용자 인터페이스 (GUI) 에이전트에 대한 관심이 높아지는 계기가 되었으나, 다양한 실제 응용 분야를 아우르는 대규모 학습 데이터의 부족으로 인해 이들의 일반화 능력은 여전히 제한되어 있습니다. 기존 데이터셋은 비용이 많이 드는 수동 어노테이션 (Manual Annotations)에 크게 의존하며, 일반적으로 좁은 도메인에 국한되어 있습니다. 이러한 문제를 해결하기 위해, 우리는 레이블이 지정되지 않은 인터넷 비디오에서 근거가 있는 (Grounded) GUI 상호작용 궤적을 직접 추출하는 완전 자동화된 프레임워크인 Video2GUI를 제안합니다. Video2GUI는 coarse-to-fine 필터링 전략을 사용하여 고품질의 GUI 튜토리얼 비디오를 식별하고 이를 구조화된 에이전트 궤적으로 변환합니다. 이 파이프라인을 5억 개의 비디오 메타데이터 항목에 적용하여, 우리는 1,500개 이상의 애플리케이션과 웹사이트를 아우르는 1,200만 개의 상호작용 궤적을 포함하는 대규모 데이터셋인 WildGUI를 구축했습니다. WildGUI를 통해 Qwen2.5-VL 및 Mimo-VL을 사전 학습 (Pre-training)한 결과, 여러 GUI grounding 및 액션 벤치마크에서 5-20%의 일관된 성능 향상을 보였으며, 이는 최첨단 (State-of-the-art) 성능과 일치하거나 이를 능가합니다. 우리는 GUI 에이전트의 향후 연구를 지원하기 위해 WildGUI 데이터셋과 Video2GUI 파이프라인을 모두 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Video2GUI: 일반화된 GUI Agent 사전 학습을 위한 대규모 상호작용 궤적 합성

요약

핵심 포인트

댓글