arXiv논문2026. 05. 26. 12:48

MobileGym: 모바일 GUI 에이전트 연구를 위한 검증 가능하고 고도로 병렬화된 시뮬레이션 플랫폼

요약

MobileGym은 모바일 GUI 에이전트 연구를 위한 경량화된 브라우저 호스팅 시뮬레이션 플랫폼입니다. 구조화된 JSON 상태를 통해 결정론적 검증과 대규모 병렬 강화학습(RL)을 지원하며, 실제 기기와의 높은 Sim-to-Real 성능 유지력을 보여줍니다.

핵심 포인트

구조화된 JSON 상태 기반의 결정론적 결과 검증 가능
저비용 병렬 롤아웃을 통한 확장 가능한 온라인 강화학습 지원
MobileGym-Bench를 통한 416개의 매개변수화된 작업 템플릿 제공
Qwen3-VL 모델 적용 시 실제 기기 성능의 95.1% 유지

우리는 독점적인 백엔드(proprietary backends)를 복제하지 않으면서도 상호작용 충실도(interaction fidelity)를 목표로 하는, 일상적인 모바일 사용을 위한 브라우저 호스팅 방식의 경량화되고 완전히 제어 가능한 환경인 MobileGym을 선보입니다. MobileGym은 기존의 일상적인 앱에서는 도달할 수 없었던 두 가지 기능을 가능하게 합니다: 구조화된 JSON 상태(structured JSON state)에 대한 결정론적 상태 기반 판정(deterministic state-based judging)을 통한 검증 가능한 결과 신호(verifiable outcome signals), 그리고 저비용 병렬 롤아웃(parallel rollouts)을 통한 확장 가능한 온라인 강화학습 (RL)입니다. 전체 환경 상태는 구조화된 JSON으로서 캡처, 구성, 포크(fork) 및 비교되며, 단일 서버가 인스턴스당 약 400MB의 메모리와 약 3초의 콜드 스타트(cold start) 시간으로 수백 개의 병렬 인스턴스를 호스팅할 수 있습니다. 계층화된 상태 모델(layered state model)과 선언적 작업 정의 프레임워크(declarative task-definition framework)는 상태 프로그래밍 가능성(state programmability)과 대규모 작업 생성을 실용적으로 유지하며, 단일 프로그래밍 방식의 판정 메커니즘은 결정론적 평가 판결과 조밀한 강화학습 (RL) 보상(dense RL rewards)을 모두 제공합니다. 함께 제공되는 MobileGym-Bench는 28개의 앱에 대해 256개의 테스트 템플릿과 160개의 학습 템플릿을 포함하여 총 416개의 매개변수화된 작업 템플릿을 제공하며, 결정론적 판정기(deterministic judges)와 자유 형식 텍스트 매칭 실패를 방지하는 구조화된 AnswerSheet 프로토콜을 갖추고 있습니다. Sim-to-Real 사례 연구에서, Qwen3-VL-4B-Instruct에 적용된 GRPO는 256개 작업 테스트 세트에서 +12.8 퍼센트 포인트의 성능 향상을 얻었으며, 59개 작업의 실제 기기 신호 서브셋(real-device signal subset)에서는 실제 기기 실행 시 시뮬레이션 측 학습 이득의 95.1%를 유지했습니다. 프로젝트 페이지: https://mobilegym.github.io.

AI 자동 생성 콘텐츠

원문 바로가기

MobileGym: 모바일 GUI 에이전트 연구를 위한 검증 가능하고 고도로 병렬화된 시뮬레이션 플랫폼

요약

핵심 포인트

댓글