Video2GUI: 5억 개 이상의 라벨링되지 않은 YouTube 영상을 근거 있는 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크
요약
Video2GUI는 라벨링되지 않은 YouTube 영상을 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크입니다. 이를 통해 1,270만 개의 궤적을 포함하는 WildGUI 데이터셋을 구축하여 GUI 에이전트 성능을 크게 향상시켰습니다.
핵심 포인트
- 5억 개 이상의 YouTube 영상을 활용한 자동화 프레임워크
- 1,500개 이상의 앱을 포함하는 WildGUI 데이터셋 생성
- GUI 에이전트 벤치마크 성능 5~20% 향상 달성
Video2GUI
5억 개 이상의 라벨링되지 않은 (unlabeled) YouTube 영상을 근거 있는 (grounded) GUI 상호작용 궤적 (interaction trajectories)으로 변환하는 완전 자동화 프레임워크 (fully automated framework)입니다. 1,500개 이상의 앱에 걸쳐 1,270만 개의 궤적을 포함하는 WildGUI 데이터셋을 생성하며, 이를 통해 GUI 에이전트 (GUI agent) 벤치마크에서 5~20%의 성능 향상을 달성했습니다.
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기