장기적 작업 수행을 위한 모바일 GUI 에이전트용 작업 상태 표현 (Task-State Representation)

장기적 작업 수행 (Long-horizon) 모바일 GUI 에이전트들은 일반적으로 사고-행동-관찰 (thought-action-observation) 루프에 의존하지만, 지속적인 작업 상태 (task states)와 일시적인 화면 관찰 (transient screen observations)을 분리하는 데 어려움을 겪습니다. 실행 이력이 늘어남에 따라 이러한 얽힘은 심각한 컨텍스트 부담을 초래하며, 에이전트가 초기 요구 사항을 잊거나, 진행 상황을 환각 (hallucinate)하거나, 오래된 인터페이스와 반복적으로 상호작용하게 만듭니다. 이를 해결하기 위해, 우리는 작업 상태를 감각 입력 (sensory input)으로부터 명시적으로 분리하는 학습이 필요 없는 프레임워크인 작업 상태 표현 (Task-State Representation, TSR)을 소개합니다. 가벼운 외부 래퍼 (external wrapper) 역할을 하는 TSR은 세 가지 구조화된 구성 요소, 즉 전역 지침 요약 (global instruction summary), 하위 목표를 위한 동적 진행 추적기 (dynamic progress tracker), 그리고 전이 인식 행동 검증기 (transition-aware action verifier)를 유지합니다. 행동 전후의 시각적 비교를 통해 지속적으로 업데이트됨으로써, TSR은 아키텍처 수정 없이도 에이전트의 추론을 효과적으로 가이드합니다. 네 가지 모바일 GUI 벤치마크에 걸친 실험을 통해 TSR의 효과를 검증하였으며, 복잡한 교차 애플리케이션 및 메모리 집약적 작업에서 성공률을 최대 12 퍼센트 포인트 (absolute point) 향상시키는 결과를 얻었습니다.

Insights

장기적 작업 수행을 위한 모바일 GUI 에이전트용 작업 상태 표현 (Task-State Representation)

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화