arXiv논문2026. 06. 26. 12:06

자율적 경험 탐색 및 사후 경험 활용을 통한 GUI 에이전트의 태스크 플래닝 역량 강화

요약

소규모 MLLM의 GUI 에이전트 태스크 플래닝 능력을 강화하기 위한 PEEU 방법론을 제안합니다. 자율적 환경 탐색과 사후 경험 활용을 통해 고수준 학습 데이터를 합성하며, TDHAF 프레임워크를 통해 작업 입도별 일반화 성능을 분석했습니다.

핵심 포인트

PEEU 방법론을 통한 소규모 MLLM의 플래닝 및 일반화 능력 향상
사후 경험 활용을 통한 고수준 학습 데이터 합성 기술 제안
TDHAF 프레임워크를 통한 작업 입도별 구성적 일반화 분석
7B 모델이 Qwen2.5-VL-32B보다 높은 정확도를 기록하며 성능 입증

멀티모달 웹 에이전트 (Multimodal web agents)는 인간이 반복적인 GUI 작업을 수행하는 것을 도울 수 있으며, 여기서 복잡한 작업을 실행 가능한 동작으로 분해하기 위한 효과적인 태스크 플래닝 (task planning)은 필수적입니다. 소규모 오픈 소스 MLLM (Multimodal Large Language Models)은 상용 대형 모델에 비해 비용 효율적이고 개인정보를 보호할 수 있지만, 약한 플래닝 능력과 제한된 웹사이트 간 일반화 (cross website generalization) 문제로 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 환경을 자율적으로 탐색하여 경험을 발견하고, 사후 경험 (hindsight experience)을 활용하여 엄격하게 정렬된 고수준 (high level) 학습 데이터를 합성하는 플래닝 경험 탐색 및 활용 (PEEU, planning experience exploration and utilization) 방법을 소개합니다. 이러한 성능을 견인하는 일반화 동작을 정량적으로 분석하기 위해, 우리는 저수준 (low), 중수준 (middle), 고수준 (high)의 세 가지 작업 입도 (task granularities)에 걸쳐 구성적 일반화 (compositional generalization)를 체계적으로 연구하는 태스크 분해 계층적 분석 프레임워크 (TDHAF, task decomposition hierarchical analysis framework)를 제안합니다. 우리의 분석 결과, 저수준의 원자적 기술 (atomic skills)을 숙달하는 것이 고수준의 플래닝 역량을 보장하지는 않지만, 고수준 작업 학습은 더 강력한 OOD (Out-of-Distribution) 일반화를 생성한다는 것을 밝혀냈습니다. 실제 세계 벤치마크에서의 실험은 PEEU의 탁월한 효과를 입증합니다. 우리의 7B 모델은 30.6%의 정확도를 달성하여 훨씬 더 큰 Qwen2.5-VL-32B 모델보다 뛰어난 성능을 보였습니다. 이는 사후 고수준 작업을 구축하고 경험을 활용하는 것이 소규모 MLLM의 OOD 플래닝 능력에 있어 매우 중요하다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

자율적 경험 탐색 및 사후 경험 활용을 통한 GUI 에이전트의 태스크 플래닝 역량 강화

요약

핵심 포인트

댓글