본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

불확실성을 고려한 OS 탐색 시스템 ScreenSearch

요약

ScreenSearch는 데스크톱 GUI 에이전트가 겪는 부분 관측 가능성 문제를 해결하기 위해 설계된 OS 상태 탐색 시스템입니다. UIA 트리 기반의 구조적 화면 검색과 모호성 인지형 PUCT 그래프-밴딧 알고리즘을 결합하여, 시각적으로 유사하지만 상태가 다른 화면을 식별하고 효과적으로 탐색 코퍼스를 구축합니다.

핵심 포인트

  • 부분 관측 가능성 문제를 해결하기 위해 구조적 화면 검색과 중복 제거 기술을 결합함
  • 유사한 화면이 서로 다른 결과를 초래할 경우 이를 모호성 신호로 정의하여 정밀 조사를 유도함
  • 모호성 감소와 프런티어 확장 사이의 트레이드오프를 확인하여 단순 모호성 감소 이상의 탐색 목표가 필요함을 입증함
  • 11개 애플리케이션에서 100만 개 이상의 스크린샷을 포함하는 대규모 탐색 코퍼스를 생성함

데스크톱 GUI 에이전트(Desktop GUI agents)는 부분 관측 가능성(partial observability) 하에서 작동합니다. 시각적으로 유사한 화면이 서로 다른 기저의 워크플로우 상태(workflow states)에 대응할 수 있으므로, 국소적으로 타당해 보이는 행동이 급격히 다른 결과로 이어질 수 있습니다. 우리는 이를 컴퓨터/OS 상태 탐색(state exploration) 문제로 정의하며, 효과적인 동작을 위해서는 도달 가능한 프런티어(frontier)를 확장하는 것과 실행에 옮기기 전 모호성(ambiguity)을 줄이는 것 모두가 필요합니다.

우리는 대규모 데스크톱 탐색을 위해 구조적 화면 검색 및 중복 제거(deduplication)와 모호성 인지형 PUCT 그래프-밴딧(PUCT graph-bandit)을 결합한 시스템인 ScreenSearch를 제시합니다. 검색 계층(retrieval layer)은 UIA 트리(UIA trees)를 위치 인식형 구조적 특징(location-aware structural features)으로 변환하고, 희소 토큰 검색(sparse token search) 및 메타데이터 필터를 통해 관련 화면을 인덱싱하며, VM 워커(VM workers) 전반에 걸쳐 공유된 중복 제거 상태 그래프(deduplicated state graph)를 유지합니다. 이 그래프 위에서, 우리는 일치하는 행동 결과의 분산(matched-action outcome dispersion)을 기반으로 확장 가능한 모호성 신호(ambiguity signal)를 정의합니다. 만약 유사한 화면이 동일한 행동 시그니처(action signature) 하에서 서로 다른 다음 상태를 생성한다면, 해당 상태는 해결된 것으로 간주하기보다 더 정밀하게 조사(probe)되어야 합니다. 우리는 이 신호를 프런티어 보상(frontier rewards)과 함께 사용하여 대규모 탐색을 유도하고, 공유 그래프 상에서 리플레이-스타트 정책 평가(replay-start policy evaluation)를 수행합니다.

11개의 데스크톱 애플리케이션에 걸쳐 ScreenSearch는 100만 개 이상의 스크린샷과 3만 개 이상의 중복 제거된 상태를 수집하였으며, 애플리케이션 간 및 애플리케이션 내의 상당한 다양성을 가진 대규모 탐색 코퍼스(exploration corpora)를 생성했습니다. 고정된 리플레이-스타트 슬라이스(replay-start slice)에서 우리는 명확한 신규성-모호성 트레이드오프(novelty--ambiguity trade-off)를 관찰했습니다. 일부 정책은 프런티어를 거의 발견하지 못하면서 모호성만 빠르게 줄이는 경향을 보였습니다. 따라서 모호성 감소 자체만으로는 충분한 탐색 목표가 될 수 없습니다. 부록의 절제 연구(ablations) 결과는 더 강력한 제안 사전 확률(proposal priors)이 코퍼스 구축 중 고유 상태 발견(unique-state discovery)을 실질적으로 개선할 수 있음을 보여줍니다. 이러한 결과는 언제 조사하고 언제 실행할지를 결정할 때 상태 정체성(state identity), 제안 품질(proposal quality), 그리고 모호성 인지 검색(ambiguity-aware search)이 모두 중요하다는 것을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0