Xiaomi-GUI-0 기술 보고서

그래픽 사용자 인터페이스 (GUI) 에이전트는 비전-언어 모델 (Vision-Language Models)을 기반으로 탭 (tapping), 스와이프 (swiping), 텍스트 입력 (text entry), 내비게이션 (navigation)과 같은 인터페이스 동작을 통해 실제 애플리케이션에서 사용자의 작업을 엔드 투 엔드 (end-to-end)로 완료합니다. 그러나 기존의 GUI 에이전트들은 주로 오프라인 궤적 (offline trajectories), 시뮬레이션 환경, 그리고 표준화된 벤치마크 (benchmarks)를 기반으로 학습 및 평가됩니다. 이는 인터페이스 레이아웃, 상호작용 로직, 그리고 비정상 상태 분포 (abnormal-state distribution) 측면에서 실제 애플리케이션과 크게 다르며, 계정 상태, 권한 대화 상자, 결제 인증, 리스크 제어 (risk control) 등이 상태 분포를 지속적으로 재구성하여 벤치마크 점수와 실제 사용성 사이에 지속적인 격차를 만드는 실제 환경에서의 실행 안정성을 충실히 나타내지 못합니다. 이 격차를 해소하기 위해, 우리는 실제 기기 폐쇄 루프 (closed loop) 내에서 학습 및 평가되는 실제 모바일 환경을 위한 네이티브 멀티모달 (native multimodal) GUI 에이전트인 Xiaomi-GUI-0를 제안합니다. 그 핵심은 실제 기기 중심의 하이브리드 인프라로, 물리적 기기가 주요 실행 환경이며 샌드박스 (sandboxes)가 보조적인 지원을 제공함으로써 데이터 수집, 학습, 롤아웃 (rollout), 그리고 평가가 실제 배포와 유사한 실행 분포를 공유하도록 합니다. 우리는 빈도가 높은 주요 작업 (head tasks), 롱테일 의도 (long-tail intents)를 위한 고범용성 데이터, 그리고 성찰 (reflection) 및 메모리 (memory)를 위한 능력 강화 데이터를 아우르는 다중 소스 학습 데이터를 구축하였으며, 실패한 궤적을 수정된 동작, 성찰적 설명, 그리고 복구 시연으로 전환하는 오류 주도형 데이터 플라이휠 (error-driven data flywheel)을 도입했습니다. 모델은 지도 미세 조정 (supervised fine-tuning), 단계별 강화 학습 (step-level reinforcement learning), 그리고 에이전트 강화 학습 (agentic reinforcement learning)의 점진적인 3단계 파이프라인을 통해 학습됩니다. 공개 벤치마크와 자체 개발한 RealMobile에서 평가한 결과, Xiaomi-GUI-0는 RealMobile에서 72.0%, AndroidWorld에서 78.9%의 성공률을 달성하였으며, 실제 작업에서의 실행 안정성과 비정상 상태 인식 능력을 실질적으로 향상시켰습니다.

Insights

Xiaomi-GUI-0 기술 보고서

요약

핵심 포인트

댓글

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

Comcast 분할, 부인에도 불구하고 M&A 촉발 가능성 제기

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

Comcast 분할, 부인에도 불구하고 M&A 촉발 가능성 제기