BAMI: Training-Free Bias Mitigation in GUI Grounding
요약
본 논문은 GUI 에이전트의 핵심 기능인 GUI grounding의 성능 향상을 목표로 합니다. 기존 모델들이 고해상도 이미지와 복잡한 인터페이스 요소에서 발생하는 편향 문제(정밀 및 혼란 편향)를 겪는 문제를 해결하기 위해, 'Bias-Aware Manipulation Inference (BAMI)'라는 방법을 제안합니다. BAMI는 coarse-to-fine focus와 candidate selection이라는 두 가지 핵심 조작을 통해 훈련 없이 다양한 GUI grounding 모델의 정확도를 크게 향상시키며, 실제 벤치마크에서 유의미한 성능 개선을 입증했습니다.
핵심 포인트
- GUI grounding은 클릭/드래그 같은 작업을 수행하는 에이전트 구현에 필수적이지만, 복잡한 시나리오에서 편향 문제가 발생한다.
- 문제는 고해상도 이미지(정밀 편향)와 복잡한 인터페이스 요소(혼란 편향)로 인해 발생하며, 이를 해결하기 위해 BAMI가 제안되었다.
- BAMI는 'coarse-to-fine focus' 및 'candidate selection'이라는 두 가지 핵심 조작을 포함하여 훈련 없이도 성능 향상을 달성한다.
- 실험 결과, BAMI를 적용했을 때 기존 모델의 정확도가 크게 개선되었으며(예: 51.9% $ ightarrow$ 57.8%), 다양한 환경에서 안정적임을 입증했다.
GUI grounding 는 클릭 및 드래그와 같은 작업을 실행할 수 있는 GUI 에이전트를 가능하게 하는 핵심 기능입니다. 그러나 복잡한 시나리오인 ScreenSpot-Pro 벤치마크에서 기존 모델은 종종 최적 성능을 달성하지 못합니다. 제안한 extbf{Masked Prediction Distribution (MPD)} 귀속 방법을 활용하여, 오류의 주요 원인은 두 가지로 확인되었습니다: 고해상도 이미지 (정밀 편향) 와 복잡한 인터페이스 요소 (혼란 편향). 이러한 과제를 해결하기 위해 우리는 extbf{Bias-Aware Manipulation Inference (BAMI)}를 소개하며, 이는 정밀한 편향을 효과적으로 완화하기 위해 두 가지 핵심 조작인 coarse-to-fine focus 와 candidate selection 을 포함합니다. 우리의 광범위한 실험 결과는 BAMI 가 훈련 없이 다양한 GUI grounding 모델의 정확도를 크게 향상시킨다는 것을 보여줍니다. 예를 들어, TianXi-Action-7B 모델에 우리 방법을 적용하면 ScreenSpot-Pro 벤치마크에서의 정확도가 51.9% 에서 57.8% 로 개선됩니다. 또한, ablation studies 는 BAMI 접근법이 다양한 파라미터 구성에서 견고함을 입증하며, 그 안정성과 효과성을 강조합니다. 코드는 https://github.com/Neur-IO/BAMI 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기