컴퓨터 사용 에이전트를 위한 이력 인식 시각적 접지 비평가 (A History-Aware Visually Grounded Critic for
요약
HiViG는 GUI 환경에서 컴퓨터 사용 에이전트(CUA)의 성능을 높이기 위한 새로운 테스트 시간 프레임워크입니다. 과거 상호작용을 요약하는 이력 인식 기능과 시각적 접지 비평을 결합하여, 에이전트의 근시안적 결정과 실행 오류를 효과적으로 방지합니다.
핵심 포인트
- 과거 상호작용을 압축하여 거시 동작 이력으로 제공
- 시각적 접지를 통해 잘못된 UI 요소 클릭 등 실행 오류 차단
- Qwen2-VL 및 Gemini-1.5-Flash 모델의 성공률을 유의미하게 향상
- 장기적 GUI 작업 수행을 위한 필수적인 테스트 시간 스케일링 기술
복잡한 그래픽 사용자 인터페이스 (GUI) 환경에서 실행 전 동작 평가를 통해 성능을 향상시키기 위해, 비평가 모델 (critic models)을 포함한 컴퓨터 사용 에이전트 (Computer Use Agents, CUAs)를 위한 다양한 테스트 시간 개입 (test-time interventions) 방법들이 개발되어 왔습니다. 그러나 기존의 비평가들은 두 가지 주요 한계점을 겪고 있습니다: (1) 주로 근시안적인 결정 루프 (예: 이전 동작을 망각함)에 집중하며, (2) 결함이 있는 동작(예: 잘못된 UI 요소 클릭)을 탐지하는 데 필요한 시각적 접지 (visual grounding)가 부족하다는 점입니다. 이를 해결하기 위해, 우리는 HiViG를 소개합니다. HiViG는 이력 인식 시각적 접지 (History-aware Visually Grounded) 테스트 시간 프레임워크로, 실제 GUI 궤적 (trajectories)을 통해 학습된 멀티모달 비평가를 중심으로 구축되어 과거의 상호작용을 압축된 기록으로 추상화하고 시각적 접지를 통해 동작을 평가합니다. 테스트 시점에 HiViG는 비평가를 정책 결정 루프 (policy decision loop)에 통합하여, 정책의 완료된 성과를 요약하는 거시 동작 이력 (macro-action history)과, 실행 전 오류를 차단하기 위해 현재 스크린샷과 대비하여 원시 실행 좌표를 검증하는 시각적 접지 비평 (visually grounded critique)을 제공합니다. 웹, 모바일 및 데스크톱 벤치마크 전반에 걸쳐 HiViG는 기존의 스칼라 (scalar) 및 언어적 (verbal) 비평가들을 지속적으로 능가하며, 가장 강력한 베이스라인 대비 Qwen3-VL-32B에서는 평균 성공률을 5.8%, Gemini-3-Flash에서는 9.0% 향상시켰으며, 강력한 교차 플랫폼 일반화 능력을 입증했습니다. 절제 연구 (Ablations) 결과, 거시 동작 이력은 근시안적인 계획을 완화하고 시각적 접지 비평은 실행 오류를 줄이는 것으로 나타났으며, 두 구성 요소 모두 장기적 관점의 GUI 작업 (long-horizon GUI tasks)에서 테스트 시간 스케일링 (test-time scaling)을 위해 필수적임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기