arXiv논문2026. 05. 28. 13:21

Mobile-Aptus: MLLM 기반 모바일 사용 에이전트에서의 신뢰도 기반 선제적이고 견고한 상호작용

요약

MLLM 기반 모바일 에이전트의 과잉 실행과 과잉 요청 문제를 해결하기 위한 신뢰도 통합 프레임워크 Mobile-Aptus를 제안합니다. SFT와 DPO를 결합하여 에이전트가 스스로 작업 수행 가능 여부를 판단하고 최적의 시점에 인간과 상호작용하도록 설계되었습니다.

핵심 포인트

과잉 실행 및 과잉 요청 문제를 동시에 완화하는 프레임워크 제안
SFT와 DPO를 활용한 신뢰도 점수 출력 및 편향 교정 기술 적용
주요 모바일 에이전트 벤치마크에서 SOTA 성능 달성
작업 성공률 평균 17% 이상 향상 및 인간 개입 최소화

최근 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 발전은 모바일 사용 에이전트 (mobile-using agents)가 인간의 지시를 자율적으로 수행할 수 있는 탁월한 잠재력을 보여주었습니다. 그러나 완전히 자동화된 에이전트들은 종종 작업을 해결할 수 없는 상황에서도 작업을 실행하려고 시도하며, 이는 과잉 실행 (over-execution) 문제로 이어집니다. 이전 연구들은 에이전트가 사용자 지시를 완료할 수 없을 때 인간의 상호작용을 요청하도록 대화형 모바일 사용 에이전트를 훈련함으로써 이 문제를 해결하고자 했습니다. 하지만 우리는 이러한 대화형 에이전트들이 인간의 개입에 과도하게 의존하는 과잉 요청 (over-soliciting) 행동을 보이는 경향이 있음을 발견했습니다. 과잉 실행과 과잉 요청을 모두 완화하기 위해, 우리는 MLLM 기반 모바일 사용 에이전트에서 신뢰도 기반의 선제적이고 견고한 상호작용을 가능하게 하는 보편적인 신뢰도 통합 프레임워크 (universal confidence integration framework)를 제안합니다. 이 프레임워크는 상호작용 능력 강화 (interaction capability empowerment)와 신뢰도 편향 교정 (confidence bias correction)의 두 단계로 구성됩니다. 상호작용 능력 강화 단계에서 에이전트는 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 통해 행동 (actions)과 신뢰도 점수 (confidence scores)를 모두 출력하도록 학습합니다. 신뢰도 편향 교정 단계에서 에이전트는 의미론적 유사성 검색 (semantic similarity retrieval)과 직접 선호 최적화 (Direct Preference Optimization, DPO)를 결합하여 더 정확한 신뢰도 점수를 출력하도록 학습합니다. 실험 결과, Mobile-Aptus는 네 가지 대중적인 모바일 사용 에이전트 벤치마크인 OS-Kairos, AITZ, Meta-GUI, AndroidControl에서 최첨단 (state-of-the-art) 성능을 달성했습니다. Mobile-Aptus는 오프라인 벤치마크에서 모든 베이스라인을 지속적으로 능가하며, 작업 성공률 (task success rate)에서 평균 17% 이상의 향상을 보였습니다. 실제 환경의 동적 실험에서 Mobile-Aptus는 지시당 단 0.64회의 개입 단계만으로 작업 성공률 면에서 베이스라인을 26% 초과 달성했습니다. 코드는 https://github.com/Wuzheng02/Mobile-Aptus 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Mobile-Aptus: MLLM 기반 모바일 사용 에이전트에서의 신뢰도 기반 선제적이고 견고한 상호작용

요약

핵심 포인트

댓글