본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 18:57

A11y-Compressor: 시각적 컨텍스트 재구성 및 중복 감소 를 통한 GUI 에이전트 관측 효율성 향상 프레임워크

요약

A11y-Compressor는 GUI와 상호작용하는 AI 에이전트가 신뢰할 수 있는 관측 표현을 얻도록 돕는 프레임워크입니다. 기존의 접근성 트리는 중복성이 높고 공간적 구조 정보가 부족하다는 단점이 있습니다. 이 프레임워크는 시각적 컨텍스트 재구성 및 중복 감소를 통해 선형화된 접근성 트리를 컴팩트하고 구조화된 표현으로 변환하며, 이를 통해 OSWorld 벤치마크에서 토큰을 크게 줄이고 에이전트의 작업 성공률을 개선하는 성능을 입증했습니다.

핵심 포인트

  • GUI 상호작용 AI 에이전트는 신뢰성 있는 관측 표현이 필수적입니다.
  • 기존 접근성 트리는 중복성과 공간적 구조 정보 부족이라는 한계를 가집니다.
  • A11y-Compressor는 시각적 컨텍스트 재구성 및 중복 감소를 통해 접근성 트리를 효율적으로 압축하고 구조화합니다.
  • 제안된 Compressed-a11y는 모달 감지, 중복 감소, 의미론적 구조화를 포함하는 변환 파이프라인을 사용합니다.
  • OSWorld 벤치마크에서 입력 토큰을 원본의 22%로 줄이고 작업 성공률을 평균 5.1%p 개선했습니다.

그래픽 사용자 인터페이스 (GUI) 와 상호작용하는 AI 에이전트는 신뢰할 수 있는 그라운딩을 위해 효과적인 관측 표현이 필요합니다. 접근성 트리 (accessibility tree) 는 UI 요소 속성을 인코딩하는 일반적으로 사용되는 텍스트 기반 형식이지만, 중복성이 있으며 요소 간의 공간적 관계와 같은 구조적 정보를 결여합니다. 우리는 시각적 컨텍스트 재구성 및 중복 감소 를 통해 선형화된 접근성 트리를 컴팩트하고 구조화된 표현으로 변환하는 프레임워크인 A11y-Compressor 를 제안합니다. 우리의 구현인 Compressed-a11y 는 모달 감지 (modal detection), 중복 감소, 의미론적 구조화 와 같은 경량 및 구조 변환 파이프라인을 적용합니다. OSWorld 벤치마크 실험 결과, Compressed-a11y 는 입력 토큰을 원본의 22% 로 줄이고 평균적으로 작업 성공률을 5.1 퍼센트 포인트 개선했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0