arXiv논문2026. 06. 23. 14:33

에이전트 기반 휴대폰 사용을 위한 오픈 모델 학습

요약

에이전트 기반 휴대폰 사용을 위한 새로운 학습 방법론인 PhoneWorld와 PhoneBuddy를 제안합니다. 실제 앱 환경과 모의 앱 환경을 결합한 혼합 강화학습(mixed RL)을 통해 에이전트의 태스크 성공률을 효과적으로 향상시켰습니다.

핵심 포인트

실제 앱과 모의 앱 환경을 결합한 PhoneWorld 환경 제안
오픈 모델 라인업인 PhoneBuddy를 통한 학습 레시피 구축
혼합 강화학습(mixed RL) 적용 시 태스크 성공률 최대 향상
모의 앱 학습이 실제 앱 강화학습의 보완적 소스로 작동함을 입증

휴대폰은 범용 에이전트(general-purpose agents)를 위한 중요한 실행 표면(execution surface)이 되고 있지만, 신뢰할 수 있는 휴대폰 사용을 위해 오픈 모델(open models)을 학습시키는 것은 여전히 어렵습니다. 배포 시 중요한 환경인 '실제 앱이 실행되는 실제 기기'는 속도가 느리고, 상태 유지(stateful)적이며, 부수 효과(side-effectful)가 발생하고, 리셋하거나 검증하기 어렵기 때문입니다. 반면, 확장 가능한 모의 환경(mock environments)은 실제 동작을 근사적으로만 모사할 뿐입니다. 본 논문에서는 실제 앱 환경과, 실제 GUI 사용 구조로부터 실행 가능한 모의 앱을 재구성하는 모의 앱 환경인 PhoneWorld를 결합하여 에이전트 기반 휴대폰 사용을 위한 학습 레시피 및 오픈 모델 라인인 PhoneBuddy를 제시합니다. PhoneBuddy는 먼저 두 환경 모두에서 수집된 궤적(trajectories)을 바탕으로 공유된 지도 미세 조정(supervised fine-tuning, SFT) 단계를 구축한 다음, 실제 앱 강화학습(RL)과 두 환경 모두를 아우르는 혼합 강화학습(mixed RL)을 비교합니다. 앱, 미니 앱(mini-apps), 그리고 앱 간 워크플로우(cross-app workflows)를 아우르는 실제 휴대폰에서의 150개 태스크 인간 평가 결과, 태스크 성공률은 지도 미세 조정 후 36.67%에서 실제 앱 RL 이후 40.67%, 혼합 RL 이후 45.33%로 향상되었습니다. AndroidWorld에서는 동일한 진행 과정에 따라 60.3%에서 77.2%, 그리고 83.2%로 상승했습니다. 이러한 결과는 모의 앱 학습이 실제 앱 RL을 대체하는 것이 아니라, 확장 가능하고 리셋 가능하며 자동으로 체크 가능한 상호작용의 보완적인 소스임을 보여줍니다. 성능 향상은 앱 및 미니 앱 태스크에서 가장 강력하게 나타났으나, 긴 수평적 앱 간 워크플로우는 여전히 중요한 미해결 과제로 남아 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 기반 휴대폰 사용을 위한 오픈 모델 학습

요약

핵심 포인트

댓글