Xiaomi-GUI-0 기술 보고서
요약
Xiaomi-GUI-0는 실제 모바일 환경의 복잡한 상태 변화를 반영하기 위해 설계된 네이티브 멀티모달 GUI 에이전트입니다. 실제 기기 중심의 하이브리드 인프라와 오류 주도형 데이터 플라이휠을 통해 실제 애플리케이션에서의 실행 안정성을 극대화했습니다.
핵심 포인트
- 실제 기기 폐쇄 루프 기반의 하이브리드 학습 인프라 구축
- 오류 주도형 데이터 플라이휠을 통한 실패 궤적 수정 및 복구 능력 강화
- SFT, 단계별 RL, 에이전트 RL을 포함한 3단계 학습 파이프라인 적용
- RealMobile 및 AndroidWorld 벤치마크에서 높은 성공률 달성
그래픽 사용자 인터페이스 (GUI) 에이전트는 비전-언어 모델 (Vision-Language Models)을 기반으로 탭 (tapping), 스와이프 (swiping), 텍스트 입력 (text entry), 내비게이션 (navigation)과 같은 인터페이스 동작을 통해 실제 애플리케이션에서 사용자의 작업을 엔드 투 엔드 (end-to-end)로 완료합니다. 그러나 기존의 GUI 에이전트들은 주로 오프라인 궤적 (offline trajectories), 시뮬레이션 환경, 그리고 표준화된 벤치마크 (benchmarks)를 기반으로 학습 및 평가됩니다. 이는 인터페이스 레이아웃, 상호작용 로직, 그리고 비정상 상태 분포 (abnormal-state distribution) 측면에서 실제 애플리케이션과 크게 다르며, 계정 상태, 권한 대화 상자, 결제 인증, 리스크 제어 (risk control) 등이 상태 분포를 지속적으로 재구성하여 벤치마크 점수와 실제 사용성 사이에 지속적인 격차를 만드는 실제 환경에서의 실행 안정성을 충실히 나타내지 못합니다. 이 격차를 해소하기 위해, 우리는 실제 기기 폐쇄 루프 (closed loop) 내에서 학습 및 평가되는 실제 모바일 환경을 위한 네이티브 멀티모달 (native multimodal) GUI 에이전트인 Xiaomi-GUI-0를 제안합니다. 그 핵심은 실제 기기 중심의 하이브리드 인프라로, 물리적 기기가 주요 실행 환경이며 샌드박스 (sandboxes)가 보조적인 지원을 제공함으로써 데이터 수집, 학습, 롤아웃 (rollout), 그리고 평가가 실제 배포와 유사한 실행 분포를 공유하도록 합니다. 우리는 빈도가 높은 주요 작업 (head tasks), 롱테일 의도 (long-tail intents)를 위한 고범용성 데이터, 그리고 성찰 (reflection) 및 메모리 (memory)를 위한 능력 강화 데이터를 아우르는 다중 소스 학습 데이터를 구축하였으며, 실패한 궤적을 수정된 동작, 성찰적 설명, 그리고 복구 시연으로 전환하는 오류 주도형 데이터 플라이휠 (error-driven data flywheel)을 도입했습니다. 모델은 지도 미세 조정 (supervised fine-tuning), 단계별 강화 학습 (step-level reinforcement learning), 그리고 에이전트 강화 학습 (agentic reinforcement learning)의 점진적인 3단계 파이프라인을 통해 학습됩니다. 공개 벤치마크와 자체 개발한 RealMobile에서 평가한 결과, Xiaomi-GUI-0는 RealMobile에서 72.0%, AndroidWorld에서 78.9%의 성공률을 달성하였으며, 실제 작업에서의 실행 안정성과 비정상 상태 인식 능력을 실질적으로 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기