X요약2026. 05. 21. 20:38

Video2GUI: 5억 개 이상의 라벨링되지 않은 YouTube 영상을 근거 있는 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크

요약

Video2GUI는 라벨링되지 않은 YouTube 영상을 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크입니다. 이를 통해 1,270만 개의 궤적을 포함하는 WildGUI 데이터셋을 구축하여 GUI 에이전트 성능을 크게 향상시켰습니다.

핵심 포인트

5억 개 이상의 YouTube 영상을 활용한 자동화 프레임워크
1,500개 이상의 앱을 포함하는 WildGUI 데이터셋 생성
GUI 에이전트 벤치마크 성능 5~20% 향상 달성

Video2GUI

5억 개 이상의 라벨링되지 않은 (unlabeled) YouTube 영상을 근거 있는 (grounded) GUI 상호작용 궤적 (interaction trajectories)으로 변환하는 완전 자동화 프레임워크 (fully automated framework)입니다. 1,500개 이상의 앱에 걸쳐 1,270만 개의 궤적을 포함하는 WildGUI 데이터셋을 생성하며, 이를 통해 GUI 에이전트 (GUI agent) 벤치마크에서 5~20%의 성능 향상을 달성했습니다.
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Video2GUI: 5억 개 이상의 라벨링되지 않은 YouTube 영상을 근거 있는 GUI 상호작용 궤적으로 변환하는 완전 자동화 프레임워크

요약

핵심 포인트

댓글

SpaceX 주가, 급등세 꺾이며 사상 처음으로 IPO 가격 하회

2026년에도 Midjourney를 사용할 가치가 있을까? 솔직 리뷰

Vanguard Small-Cap Value ETF란 무엇이며, 매수해야 할까요?

Stripe가 PayPal 일부를 인수할 가능성에 대한 Polymarket의 배당률이 74%로 급등