arXiv논문2026. 05. 27. 12:21

모바일 GUI 네비게이션을 위한 시각-언어 에이전트의 스케일링, 벤치마킹 및 추론

요약

본 논문은 모바일 GUI 네비게이션을 위한 VLM 기반 에이전트의 데이터 스케일링, 벤치마킹 및 추론을 연구합니다. 대규모 데이터셋 HyperTrack과 오픈 소스 툴킷 GUIEvalKit을 통해 강화 학습 기반 미세 조정의 우수성과 데이터 규모의 시너지 효과를 입증합니다.

핵심 포인트

HyperTrack: 650개 이상의 앱과 16,000개 이상의 태스크를 포함한 대규모 데이터셋
GUIEvalKit: VLM의 GUI 네비게이션 성능 평가를 위한 오픈 소스 툴킷
강화 학습 기반 미세 조정이 지도 학습보다 도메인 외 설정에서 우수한 성능 발휘
데이터 스케일링과 강화 학습 간의 강력한 시너지 효과 확인

시각-언어 모델 (Vision-Language Models, VLMs)은 모바일 GUI 네비게이션 (GUI navigation) 분야에서 빠른 발전을 보여주었습니다. 본 논문은 이 영역에서 VLM 기반 에이전트의 데이터 스케일링 (data scaling), 벤치마킹 (benchmarking) 및 추론 (reasoning)에 대한 체계적인 연구를 제시합니다. 엄격한 평가를 용이하게 하기 위해, 우리는 650개 이상의 중국 모바일 애플리케이션에 걸쳐 16,000개 이상의 실제 태스크를 포함하는 대규모 데이터셋인 HyperTrack과, 오프라인 GUI 네비게이션 태스크에서 VLM의 통합된 벤치마킹을 위한 오픈 소스 툴킷인 GUIEvalKit을 소개합니다. HyperTrack을 사용하여, 우리는 지도 학습 (supervised) 및 강화 학습 기반 미세 조정 (reinforcement-based finetuning) 모두에서 학습 데이터 규모가 미치는 영향을 분석합니다. 우리의 결과는 강화 학습 기반 미세 조정이 지도 학습 미세 조정보다 일관되게 우수한 성능을 보이며, 특히 도메인 외 (out-of-domain) 설정에서 그러함을 보여주며, 데이터 스케일링과 강화 학습 (reinforcement learning) 사이의 시너지 효과를 강조합니다. GUIEvalKit을 활용하여, 우리는 최첨단 (state-of-the-art, SOTA) VLM들을 추가로 벤치마킹하고 상호작용 이력 (interaction history)과 추론 능력이 태스크 완료에 어떻게 영향을 미치는지 분석합니다. HyperTrack과 GUIEvalKit은 모바일 GUI 네비게이션 태스크에서 VLM 에이전트를 개발하고 평가하기 위한 포괄적인 플랫폼을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

모바일 GUI 네비게이션을 위한 시각-언어 에이전트의 스케일링, 벤치마킹 및 추론

요약

핵심 포인트

댓글