장기적 작업 수행을 위한 모바일 GUI 에이전트용 작업 상태 표현 (Task-State Representation)
요약
장기적 작업 수행 시 발생하는 모바일 GUI 에이전트의 컨텍스트 부담과 환각 문제를 해결하기 위한 TSR 프레임워크를 제안합니다. TSR은 작업 상태를 감각 입력과 분리하여 에이전트의 추론을 효과적으로 가이드합니다.
핵심 포인트
- 작업 상태와 일시적 화면 관찰을 분리하여 컨텍스트 유지력 향상
- 전역 지침 요약, 동적 진행 추적기, 행동 검증기 등 3가지 구성 요소 활용
- 아키텍처 수정 없이 외부 래퍼 형태로 적용 가능
- 복잡한 작업 환경에서 에이전트 성공률을 최대 12%p 향상
장기적 작업 수행 (Long-horizon) 모바일 GUI 에이전트들은 일반적으로 사고-행동-관찰 (thought-action-observation) 루프에 의존하지만, 지속적인 작업 상태 (task states)와 일시적인 화면 관찰 (transient screen observations)을 분리하는 데 어려움을 겪습니다. 실행 이력이 늘어남에 따라 이러한 얽힘은 심각한 컨텍스트 부담을 초래하며, 에이전트가 초기 요구 사항을 잊거나, 진행 상황을 환각 (hallucinate)하거나, 오래된 인터페이스와 반복적으로 상호작용하게 만듭니다. 이를 해결하기 위해, 우리는 작업 상태를 감각 입력 (sensory input)으로부터 명시적으로 분리하는 학습이 필요 없는 프레임워크인 작업 상태 표현 (Task-State Representation, TSR)을 소개합니다. 가벼운 외부 래퍼 (external wrapper) 역할을 하는 TSR은 세 가지 구조화된 구성 요소, 즉 전역 지침 요약 (global instruction summary), 하위 목표를 위한 동적 진행 추적기 (dynamic progress tracker), 그리고 전이 인식 행동 검증기 (transition-aware action verifier)를 유지합니다. 행동 전후의 시각적 비교를 통해 지속적으로 업데이트됨으로써, TSR은 아키텍처 수정 없이도 에이전트의 추론을 효과적으로 가이드합니다. 네 가지 모바일 GUI 벤치마크에 걸친 실험을 통해 TSR의 효과를 검증하였으며, 복잡한 교차 애플리케이션 및 메모리 집약적 작업에서 성공률을 최대 12 퍼센트 포인트 (absolute point) 향상시키는 결과를 얻었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기