
당신의 MLLM은 앱 사용을 위한 비디오 튜토리얼을 따라 할 수 있습니까?
요약
비디오 가이드를 따라 GUI를 조작하는 에이전트를 위한 새로운 벤치마크인 VG-GUI-Bench를 소개합니다. TASKER 기술을 통해 키프레임을 효율적으로 탐색하여 장기 작업 및 VideoQA 성능을 개선합니다.
핵심 포인트
- ECCV 2026을 위한 새로운 GUI 에이전트 벤치마크 VG-GUI-Bench 공개
- TASKER를 활용한 그래프 탐색 기반의 효율적인 키프레임 추출
- 적은 프레임 사용으로 장기 작업(long-horizon tasks) 성능 향상
- 벤치마크 데이터셋 및 코드 오픈 소스 제공
당신의 MLLM (Multimodal Large Language Model)은 앱 사용을 위한 비디오 튜토리얼을 따라 할 수 있습니까?
VG-GUI-Bench는 비디오 가이드 GUI 에이전트 (video-guided GUI agents)를 위한 새로운 ECCV 2026 벤치마크입니다.
TASKER는 그래프 탐색 (graph search)을 사용하여 키프레임 (keyframes)을 찾아내며, 훨씬 더 적은 프레임으로 장기 작업 (long-horizon tasks) 및 VideoQA 성능을 향상시킵니다.
벤치마크 데이터셋과 코드는 완전히 오픈 소스입니다.
프로젝트:
https://vg-gui-tasker.github.io
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기