올바른 스승을 믿으세요: GUI Grounding을 위한 품질 인식 자기 증류 (Quality-Aware Self-Distillation)
요약
GUI Grounding 성능 향상을 위해 품질 인식 자기 증류(Quality-Aware Self-Distillation) 기법을 제안합니다. 학생 모델의 잘못된 접두사로 인한 스승 신호의 품질 저하 문제를 소프트 정답 인식 게이팅과 스승-확률 스케일링을 통해 해결합니다.
핵심 포인트
- GUI Grounding을 위한 새로운 자기 증류 방법론 제안
- 잘못된 좌표 예측으로 인한 스승 신호 오염 문제 해결
- 소프트 정답 인식 게이팅과 스승-확률 스케일링의 결합 효과 입증
- 6개 벤치마크 실험을 통해 기존 베이스라인 대비 우수한 성능 확인
그래픽 사용자 인터페이스 (GUI) grounding은 시각-언어 모델 (VLMs)이 고해상도 스크린샷에서 작은 타겟 요소를 식별하고 정확한 화면 좌표를 예측할 것을 요구합니다. On-policy 자기 증류 (OPSD)는 이 좌표 민감형 태스크를 위한 유망한 사후 학습 (post-training) 접근 방식인데, 이는 정답 좌표 레이블 (hard coordinate labels)을 넘어 밀도 높은 토큰 수준의 스승 신호 (teacher signals)를 제공하기 때문입니다. 그러나 단순한 OPSD는 GUI grounding에 적합하지 않습니다. OPSD는 학생이 생성한 접두사 (prefixes)를 바탕으로 스승을 평가하는데, 접두사가 이미 타겟 좌표에서 벗어난 경우 좌표-토큰 스승 신호의 품질이 저하되어 신뢰할 수 없는 스승 신호로 이어질 수 있습니다. 이를 완화하기 위해, 우리는 소프트 정답 인식 게이팅 (soft correctness-aware gating)과 스승-확률 스케일링 (teacher-probability scaling)을 통해 좌표-토큰 스승 신호의 품질을 개선하는 VLM 기반 GUI grounding을 위한 품질 인식 자기 증류 (quality-aware self-distillation)를 제안합니다. 소프트 정답 인식 게이트는 학생이 생성한 접두사 하에서 스승의 현재 좌표-토큰 예측이 여전히 정답 박스 (ground-truth box)로 완성될 수 있는지 확인합니다. 그렇지 않은 경우, 해당 스승 신호의 가중치를 낮춥니다. 그다음 스승-확률 스케일링은 스승의 신뢰도 (confidence)를 경량화된 요소로 사용하여 게이팅된 감독 (gated supervision)의 강도를 추가로 보정합니다. 주요 실증적 발견은 두 구성 요소 중 어느 하나만으로는 전체 성능을 향상시키지 못하지만, 이들을 결합하면 성능이 일관되게 향상된다는 점입니다. 이는 두 메커니즘이 상호 보완적인 역할을 수행함을 시사합니다. 즉, 정답 인식 게이팅은 신뢰할 수 없는 좌표-토큰 감독을 억제하고, 스승-확률 스케일링은 남은 신호의 강도를 보정합니다. 6개의 GUI grounding 벤치마크에 걸친 실험 결과, 우리의 방법론은 베이스 모델을 일관되게 개선하며 강력한 베이스라인들을 능가함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기