VISTA: GUI Grounding을 위한 뷰 일관성 기반 자기 검증 학습
요약
VISTA는 GUI Grounding 성능 향상을 위해 뷰 일관성 기반의 자기 검증 학습 프레임워크를 제안합니다. 동일한 GUI 인스턴스의 다양한 뷰를 활용하여 GRPO 학습의 효율성을 높이고, 자기 검증 앵커를 통해 좌표 생성의 안정성을 확보합니다.
핵심 포인트
- 다양한 뷰를 활용한 GRPO 기반 학습 프레임워크 VISTA 제안
- 의미론적으로 동일하지만 기하학적으로 다른 입력 간 비교 가능
- 자기 검증 교차 뷰 앵커를 통한 좌표 생성 안정화
- Qwen 백본 및 주요 벤치마크에서 Grounding 정확도 대폭 향상
GUI Grounding (GUI 접지)을 위해 그룹 상대 정책 최적화 (GRPO)를 적용할 때, 롤아웃 (rollouts)은 단일 스크린샷 뷰에서 샘플링됩니다. 이로 인해 그룹이 어려운 사례에서는 모두 실패하거나 쉬운 사례에서는 모두 성공하게 되어, 유용한 상대적 이점 (relative advantage)을 얻지 못하는 경우가 빈번합니다. 우리는 동일한 GUI 인스턴스의 타겟을 보존하는 여러 뷰로부터 각 비교 그룹을 구성하는 GRPO 기반 학습 프레임워크인 VISTA (View-Consistent Self-Verified Training)를 제안합니다. 각 뷰는 타겟 요소가 보이도록 유지하는 크롭 (crop)을 통해 생성되며 해당 박스를 정확하게 재매핑하므로, 모델의 롤아웃은 의미론적으로는 동일하지만 기하학적으로는 다른 입력들 사이에서 비교됩니다. 강화 학습을 무조건적인 모방 (unitation imitation)으로 만들지 않으면서 짧은 좌표 생성을 안정화하기 위해, VISTA는 자기 검증 교차 뷰 앵커 (self-verified cross-view anchor)를 추가합니다. 이는 이점 가중 손실 (advantage-weighted loss)로 최적화된 오라클 정답 (oracle answer)으로, 그룹 베이스라인 (group baseline)에서는 제외되며 모델이 최대 보상 롤아웃을 생성했을 때만 활성화됩니다. 5개의 GUI Grounding 벤치마크와 여러 Qwen 백본 (backbones)에 걸쳐 VISTA는 Grounding 정확도를 일관되게 향상시킵니다. ScreenSpot-Pro에서 VISTA는 Qwen3-VL 4B/8B/30B-A3B의 성능을 55.5/52.7/53.7에서 63.4/65.8/67.0으로 높였습니다. 강건성 (Robustness) 분석 결과, 더 높은 최악의 뷰 정확도 (worst-view accuracy)와 더 낮은 예측 반전율 (prediction flip rates)을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기