iOSWorld: 개인화된 지능형 휴대폰 에이전트를 위한 벤치마크
요약
iOSWorld는 사용자의 신원, 이력, 선호도를 반영한 개인화된 지능형 휴대폰 에이전트를 평가하기 위한 최초의 대화형 네이티브 iOS 시뮬레이터 벤치마크입니다. 26개의 앱과 133개의 태스크를 통해 단일 앱, 멀티 앱, 메모리 및 개인화 능력을 종합적으로 테스트합니다.
핵심 포인트
- 사용자 개인 데이터를 기반으로 추론하는 개인화 에이전트 평가에 초점
- 단일 앱부터 멀티 앱, 메모리 활용 태스크까지 단계별 난이도 구성
- 시각 전용 및 특권적 시각+XML 설정에 따른 모델 성능 비교
- 모든 데이터와 평가 코드를 오픈 소스로 공개
유용한 휴대폰 에이전트(Phone Agent)는 개인화된 지능(Personally Intelligent)을 갖추어야 합니다. 에이전트는 단순히 비인격적인 샌드박스(Sandbox) 내에서 고립된 지침을 따르는 것이 아니라, 기기에 존재하는 사용자의 신원, 이력 및 선호도를 바탕으로 추론할 수 있어야 합니다. 기존의 모바일 에이전트 벤치마크(Benchmark)들은 이러한 종류의 개인화 기능이 부족합니다. 우리는 26개의 새롭게 구축된 iOS 앱에 걸쳐 지속적인 사용자 신원을 중심으로 구축된 최초의 대화형 네이티브 iOS 시뮬레이터 벤치마크인 iOSWorld를 소개합니다. 이 앱들은 거래, 메시지, 여행 기록, 사회적 관계 및 금융 활동과 같이 연결된 데이터를 포함하고 있습니다. iOSWorld는 난이도가 점진적으로 높아지는 세 가지 카테고리에 걸쳐 133개의 태스크(Task)를 포함합니다. 단일 앱 태스크(Single-app tasks, 27개)는 하나의 앱을 테스트하며, 멀티 앱 태스크(Multi-app tasks, 60개)는 2개에서 8개의 앱에 걸쳐 수행되고, 메모리 및 개인화 태스크(Memory and personalization tasks, 46개)는 에이전트가 개인 데이터로부터 패턴을 추론할 것을 요구합니다. 우리는 시각 전용(Vision-only) 및 특권적 시각+XML(Privileged vision+XML) 설정 모두에서 최첨단(Frontier) 모델과 오픈 소스(Open-source) 컴퓨터 사용(Computer-use) 모델을 평가합니다. 가장 우수한 설정은 전체적으로 52%의 성능을 달성했으나, 멀티 앱 태스크에서는 37%에 그쳤습니다. 특권적 시각+XML 접근 방식은 최첨단 모델의 성능을 최대 26%포인트 향상시키는 반면, 더 작은 모델들은 추가된 접근성 트리(Accessibility-tree) 입력으로부터 이득을 얻지 못했습니다. 우리는 모든 앱, 시드 데이터(Seeded data), 태스크, 루브릭(Rubrics) 및 평가 코드가 포함된 iOSWorld를 오픈 소스 벤치마크로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기