본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 07:10

GUI Agent를 위한 실행 가능한 에이전트 메모리 (Executable Agentic Memory)

요약

본 논문은 기존 GUI 에이전트가 장기 과제에서 취약한 모델 중심적 상호작용 패러다임을 개선하기 위해 '실행 가능한 에이전트 메모리(EAM)'라는 구조화된 지식 그래프를 제안합니다. EAM은 상태 인식 DFS와 행동 그룹 마이닝을 통해 다단계 루틴을 압축하는 효율적인 메모리 구축 파이프라인을 포함합니다. 또한, Q-함수 모델 기반의 가치 안내 그래프 탐색을 도입하여 계획의 정확성을 높이고, AndroidWorld 등 실증 환경에서 기존 최신 모델 대비 높은 성능과 낮은 비용(GPT-4o 대비 6배 절감)을 입증했습니다.

핵심 포인트

  • GUI 에이전트의 장기 과제 취약점을 해결하기 위해 구조화된 지식 그래프인 EAM을 제안함.
  • EAM은 상태 인식 DFS와 행동 그룹 마이닝을 사용하여 다단계 루틴을 압축하는 메모리 구축 파이프라인을 제공함.
  • 계획 과정에 Q-함수 모델 기반의 가치 안내 그래프 탐색(value-guided graph search)을 도입하여 효율성을 높임.
  • 실험 결과, EAM은 기존 최신 베이스라인 대비 높은 성능을 유지하면서도 토큰 비용을 크게 절감하고 낮은 지연 시간을 달성함.

현대의 GUI 에이전트(GUI agents)는 일반적으로 모델 중심적이고 단계적인 상호작용 패러다임에 의존하며, 여기서 LLM(Large Language Models)은 매 화면마다 UI를 재해석하고 행동을 다시 결정해야 하는데, 이는 장기적 과제(long-horizon tasks)에서 취약합니다. 본 논문에서는 GUI 계획(planning)을 자유 형식의 생성에서 견고한 검색 및 실행(retrieval-and-execution) 프로세스로 전환하는 구조화된 지식 그래프 (Knowledge Graph, KG)인 실행 가능한 에이전트 메모리 (Executable Agentic Memory, EAM)를 제안합니다. 우리의 접근 방식은 상태 인식 DFS (state-aware DFS)와 행동 그룹 마이닝 (action-group mining)을 사용하여 다단계 루틴을 압축하는 샘플 효율적인 메모리 구축 파이프라인을 포함합니다. 효율적인 계획을 보장하기 위해, 우리는 경량 Q-함수 (Q-function) 모델이 지식 그래프 (KG) 상에서 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)을 안내하는 가치 가이드 그래프 탐색 (value-guided graph search)을 도입합니다. 우리는 이론적으로 Q-모델에 대한 편향 일관성 (bias-consistency)을 확립하고 경로 복구를 위한 샘플 복잡도 경계 (sample complexity bounds)를 도출합니다. 실증적으로, EAM은 AndroidWorld에서 UI-TARS-7B와 같은 최첨단 베이스라인 (state-of-the-art baselines)보다 최대 $19.6%$ 높은 성능을 보이는 동시에, GPT-4o 대비 토큰 비용을 $6\times$ 절감합니다. 평균 $2.8$초의 지연 시간 (latency)과 함께, EAM은 신뢰할 수 있고 빠르며 장기적인 GUI 자동화를 가능하게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0