arXiv논문2026. 05. 04. 18:51

GUI Grounding을 위한 오패olicy 자기 증류: GUI-SD

요약

본 논문은 자연어 지시사항을 시각적 좌표로 매핑하는 GUI 그라운딩 문제를 해결하기 위해 오패olicy 자기 증류(OPSD) 프레임워크를 제안합니다. 특히, GUI-SD라는 새로운 방법을 통해 목표 경계 박스와 가우시안 소프트 마스크를 활용하여 풍부한 우선 맥락을 생성하고, 엔트로피 기반 증류로 토큰에 적응적으로 가중치를 부여하는 것이 특징입니다. 광범위한 실험 결과, GUI-SD는 기존의 GRPO 기반 방법보다 정확도와 학습 효율성 모두에서 우수한 성능을 입증했습니다.

핵심 포인트

GUI 그라운딩은 자율 에이전트에게 필수적인 능력으로, 자연어 지시를 시각적 좌표로 변환하는 과정입니다.
기존의 강화 학습 방법(예: GRPO)은 높은 성능을 보이지만, 비용이 많이 드는 다중 롤아웃과 희소 신호라는 한계가 있습니다.
제안된 GUI-SD는 오패olicy 자기 증류(OPSD)를 활용하여 단일 롤아웃만으로 밀집된 토큰 수준의 감독을 제공함으로써 효율성을 높입니다.
GUI-SD는 목표 경계 박스와 가우시안 소프트 마스크를 사용하여 정보가 풍부한 우선 맥락을 생성하고, 엔트로피 기반 증류로 최적화에 집중합니다.

그래픽 사용자 인터페이스 (GUI) 그라운딩은 자연어 지시사항을 목표 요소의 시각적 좌표로 매핑하며, 자율 GUI 에이전트의 핵심 능력입니다. 최근 강화 학습 방법들 (예: GRPO) 은 강력한 성능을 달성했지만, 비용이 많이 드는 여러 롤아웃에 의존하고 어려운 샘플에서 희소 신호를 겪습니다. 이러한 한계들은 단일 롤아웃으로부터 밀집된 토큰 수준의 감독을 제공하는 오패olicy 자기 증류 (OPSD) 를 유망한 대안으로 만듭니다. 그러나 그 적용 가능성은 아직 탐구되지 않았습니다. 이 논문에서는 GUI-SD, 첫 번째 GUI 그라운딩에 맞춤화된 OPSD 프레임을 제시합니다. 첫째, 목표 경계 박스와 가우시안 소프트 마스크를 사용하여 시각적으로 풍부해진 우선 맥락을 생성하여 정확한 좌표를 누설하지 않으면서 정보 있는 가이드를 제공합니다. 둘째, 엔트로피 기반 증류를 적용하여 디지털 중요도와 교사 신뢰도에 따라 토큰을 적응적으로 가중치 부여하고, 가장 영향력 있고 신뢰할 수 있는 위치에서 최적화를 집중시킵니다. 여섯 가지 대표적 GUI 그라운딩 벤치마크에서의 광범위한 실험은 GUI-SD 가 정확도와 학습 효율성 모두에서 GRPO 기반 방법과 단순 OPSD 를 지속적으로 상회함을 보여줍니다. 코드와 훈련 데이터는 https://zhangyan-ucas.github.io/GUI-SD/ 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GUI Grounding을 위한 오패olicy 자기 증류: GUI-SD

요약

핵심 포인트

댓글