
MobileGym 출시
요약
MobileGym은 GUI 에이전트 훈련 및 평가를 위한 브라우저 호스팅 모바일 샌드박스입니다. JSON 상태 제어와 병렬 롤아웃을 지원하며, GRPO 적용 시 실제 기기 점수를 40.7점 향상시키는 성과를 보였습니다.
핵심 포인트
- 프로그래밍 가능한 JSON 상태 및 결정론적 판정기 지원
- 단일 서버에서 256개의 병렬 롤아웃 가능
- GRPO 적용을 통한 실제 기기 성능 대폭 향상
- WBench를 통한 비디오 월드 모델 벤치마킹 수행
MobileGym이 출시되었습니다.
완전히 프로그래밍 가능한 JSON 상태(state), 결정론적 판정기(deterministic judges), 그리고 단일 서버에서 256개의 병렬 롤아웃(parallel rollouts)을 지원하는 GUI 에이전트(GUI agents)용 브라우저 호스팅 모바일 샌드박스(sandbox)입니다. 28개의 앱, 416개의 태스크, 그리고 sim-to-real 검증을 통해: GRPO 적용 후 실제 기기 점수가 40.7점 상승했습니다.
완전히 제어 가능하고 검증 가능한 샌드박스에서 모바일 GUI 에이전트를 훈련하고 평가하세요.
논문 페이지:
https://huggingface.co/papers/2605.26
114
…
프로젝트 페이지:
https://mobilegym.dev/paper
코드:
https://github.com/Purewhiter/mobilegym
…
WBench, 20개의 비디오 월드 모델(video world models)을 벤치마킹하다
289개의 케이스와 1,058개의 턴(turns)을 포함하는 포괄적인 멀티 턴(multi-turn) 평가입니다.
5개 차원에 걸친 22개의 지표(metrics)를 통해 핵심적인 발견을 제시합니다.
품질, 제어, 그리고 물리 법칙(physics) 모두에서 압도적인 단일 모델은 존재하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기