본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:51

WinDOM: 소형 모델 GUI Grounding을 위한 Self-Family Distillation

요약

소형 GUI grounding 에이전트의 성능 향상을 위해 Self-Family Distillation(SFD) 기법을 제안합니다. 인간의 주석 없이 DOM 데이터를 활용해 학습 데이터를 구축하고, 강화학습(GRPO)과 결합하여 소형 모델의 성능을 극대화합니다.

핵심 포인트

  • 인간 주석 없이 DOM 기반 경계 상자 데이터를 활용한 코퍼스 구축
  • Self-Family Distillation(SFD)을 통한 효율적인 지식 전이
  • 강화학습(GRPO)과 SFD를 결합한 Early-init RL 방식 제안
  • Qwen3.5-2B 모델 기준 다양한 벤치마크에서 성능 향상 입증

소형 ($\sim$2B) GUI-grounding (GUI 접지) 에이전트는 온디바이스 배포, 접근성 도구, 저비용 반복 작업 측면에서 매력적이지만, 이 규모에서는 두 가지 미해결 과제에 직면합니다. 즉, 비용이 많이 드는 인간 주석(human annotation) 없이 어떻게 경계 상자(bounding-box) 학습 데이터를 얻을 것인가, 그리고 어떻게 지도 미세 조정(supervised fine-tuning, SFT)을 강화학습(reinforcement learning, RL)과 결합할 것인가 하는 점입니다. 우리는 모델의 규모를 키우기보다 소형 모델의 성능을 끌어올리는 것을 명시적인 목표로 삼아 이 두 가지 문제를 모두 해결합니다. WinDOM은 headless Playwright 환경에서 오픈 소스 Windows 11 웹 재구현체를 구동하여 수집한 $54,425$개의 레코드로 구성된 grounding (접지) 코퍼스이며, OCR이나 인간의 주석 없이 DOM에서 직접 읽어온 경계 상자(bounding boxes)를 사용합니다. Self-Family Distillation (SFD)은 교사(teacher) 선택에 의해서만 매개변수화되는 단일 거부 샘플링(rejection-sampling) 콜드 스타트(cold-start) 방식입니다. 이때 교사는 학생(student) 모델의 EMA(지수 이동 평균)이거나(외부 모델 없음), 고정된 더 큰 동일 계열(same-family)의 교사 모델 중 하나를 선택합니다. 그런 다음 우리는 SFD 콜드 스타트의 포화 깊이(saturation depth)를 명시적인 GRPO 하이퍼파라미터로 취급합니다. Qwen3.5-2B 학생 모델의 경우, 포화되지 않은 콜드 스타트가 수렴된 방식보다 더 나은 GRPO 초기화 도구로 작용합니다. 즉, Early-init RL을 적용한 SFD-4B는 베이스 모델 대비 OOD-mean에서 $+5.4$ ($+3.5$ ScreenSpot-Pro, $+7.0$ OSWorld-G, $+5.8$ ScreenSpot-V2)의 이득을 얻었습니다. 동일 크기의 EMA 모드는 외부 교사 없이도 교차 크기(cross-size) 4B 변형 모델과 약 1 OOD-mean 점 차이 내에 도달했습니다 ($65.2$ 대 $66.3$).

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0