arXiv논문2026. 06. 25. 12:05

GUI 에이전트: 사용자 민감 스크린에 대한 가이드 탐색

요약

LLM 기반 GUI 에이전트가 사용자의 민감한 정보가 포함된 화면을 마주했을 때, 안전하게 사용자에게 권한을 이양할 수 있도록 돕는 연구입니다. 사용자 민감 상태를 식별하고 분류하는 데이터셋과 이를 탐색하는 에이전트 개발을 다룹니다.

핵심 포인트

GUI 에이전트의 민감 정보 노출 및 안전성 문제 제기
사용자 민감 상태(user-sensitive states) 식별 및 분류의 중요성
중요 시나리오에서 사용자 권한 이양(handover)을 위한 데이터셋 제안
민감 쿼리를 체계적으로 탐색하는 탐색 에이전트(explorer agent) 개발

LLM 에이전트들은 개방형 GUI 환경 내에서 사용자를 위한 작업을 자동화하는 데 점점 더 많이 사용되고 있습니다. 이들은 필연적으로 사용자의 민감한 정보가 포함된 화면을 마주하게 되며, 이러한 경우 사용자가 작업 실행권을 넘겨받는 것이 매우 바람직하거나 심지어 필수적입니다. 최첨단 LLM 기반 에이전트들은 대개 자신의 행동이 초래할 안전상의 영향과는 상관없이 작업을 완료하도록 미세 조정(fine-tuned)되어 있습니다. 이는 실제 환경에서의 배포를 어렵게 만들고 신뢰성에 부정적인 영향을 미칩니다. 따라서 사용자 민감 상태(user-sensitive states)를 식별 및 분류하고, 사용자 민감 쿼리(user-sensitive queries)를 정의하는 것이 매우 중요합니다. 이 데이터셋은 엔지니어들이 중요한 시나리오에서 사용자를 인식하고 사용자에게 권한 이양(handover)을 요청할 수 있도록 돕기 위한 것입니다. 본 짧은 논문은 하나의 시연된 작업으로부터 시작하여 쿼리 공간을 체계적으로 탐색함으로써, 실행 시 GUI 환경에서 사용자 민감 상태로 이어질 수 있는 쿼리들을 식별하는 탐색 에이전트(explorer agent)를 개발합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GUI 에이전트: 사용자 민감 스크린에 대한 가이드 탐색

요약

핵심 포인트

댓글