당신의 MLLM은 앱 사용을 위한 비디오 튜토리얼을 따라 할 수 있습니까?

당신의 MLLM (Multimodal Large Language Model)은 앱 사용을 위한 비디오 튜토리얼을 따라 할 수 있습니까?

VG-GUI-Bench는 비디오 가이드 GUI 에이전트 (video-guided GUI agents)를 위한 새로운 ECCV 2026 벤치마크입니다.

TASKER는 그래프 탐색 (graph search)을 사용하여 키프레임 (keyframes)을 찾아내며, 훨씬 더 적은 프레임으로 장기 작업 (long-horizon tasks) 및 VideoQA 성능을 향상시킵니다.