arXiv논문2026. 05. 28. 13:31

AndroidDaily: 실제 환경의 폐쇄형 애플리케이션 기반 모바일 GUI 에이전트를 위한 검증 가능한 벤치마크

요약

폐쇄형 애플리케이션 환경에서 모바일 GUI 에이전트를 평가하기 위한 새로운 벤치마크 AndroidDaily를 소개합니다. 내부 상태를 알 수 없는 환경을 극복하기 위해 시각적 궤적을 기반으로 검증하는 GRADE 평가 시스템을 제안합니다.

핵심 포인트

94개 Android 앱과 350개 태스크로 구성된 AndroidDaily 벤치마크 공개
내부 상태 노출이 없는 폐쇄형 앱을 위한 GRADE 평가 프레임워크 제안
GRADE는 인간 평가자와 87.37%의 높은 일치도 달성
현재 최상위 모델의 성공률은 62.0%로 실제 워크플로 수행 능력은 개선 필요

GUI 파운데이션 모델 (GUI foundation models) 및 모바일 GUI 에이전트 (mobile GUI agents)의 급격한 발전으로 수많은 평가 벤치마크가 등장했으나, 대부분 시뮬레이션 환경이나 오픈 소스 애플리케이션 (open-source applications)에 의존하고 있어 실제 환경의 폐쇄형 애플리케이션 (closed-source applications)은 평가되지 않은 채로 남아 있습니다. 핵심적인 어려움은 폐쇄형 애플리케이션이 내부 상태 (internal states)를 노출하지 않아 전통적인 자동 검증 (automatic verification)을 적용할 수 없다는 점입니다. 이러한 격차를 해소하기 위해, 우리는 교통, 쇼핑, 지역 서비스, 엔터테인먼트, 콘텐츠 제작, 소셜 미디어 및 일상적인 유틸리티를 아우르는 94개의 고빈도 Android 애플리케이션에 걸쳐 350개의 현실적인 일상 사용 태스크로 구성된 대규모 벤치마크인 AndroidDaily를 소개합니다. 이러한 불투명한 환경에서 자동화되고 검증 가능한 평가를 가능하게 하기 위해, 우리는 관찰 가능한 외부 가이드라인의 3단계 시스템인 운영 의무 (operational obligations), 출력 품질 (output quality), 부정적 제약 (negative constraints)을 기반으로 구축된 프로세스 인식 평가자인 GRADE (Guideline-grounded Reviewer for Automatic Diagnostic Evaluation)를 제안합니다. GRADE는 이러한 기준에 따라 에이전트의 시각적 궤적 (visual trajectory)을 추적하고 단계별 진단 판단 (step-level diagnostic judgments)을 생성하여, 숨겨진 내부 상태에 의존하지 않고도 장기적이고 개방적인 모바일 상호작용을 검증 가능한 평가로 전환합니다. 실험 결과, GRADE는 인간 평가자와 87.37%의 일치도를 달성했습니다. 가장 강력한 모델은 AndroidDaily에서 62.0%의 성공률을 기록했으며, 이는 현재의 추론 능력과 실제 모바일 워크플로 (mobile workflows)에서의 실질적인 실행 능력 사이에 상당한 격차가 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

AndroidDaily: 실제 환경의 폐쇄형 애플리케이션 기반 모바일 GUI 에이전트를 위한 검증 가능한 벤치마크

요약

핵심 포인트

댓글