arXiv논문2026. 06. 25. 11:51

WinDOM: 소형 모델 GUI Grounding을 위한 Self-Family Distillation

요약

소형 GUI grounding 에이전트의 성능 향상을 위해 Self-Family Distillation(SFD) 기법을 제안합니다. 인간의 주석 없이 DOM 데이터를 활용해 학습 데이터를 구축하고, 강화학습(GRPO)과 결합하여 소형 모델의 성능을 극대화합니다.

핵심 포인트

인간 주석 없이 DOM 기반 경계 상자 데이터를 활용한 코퍼스 구축
Self-Family Distillation(SFD)을 통한 효율적인 지식 전이
강화학습(GRPO)과 SFD를 결합한 Early-init RL 방식 제안
Qwen3.5-2B 모델 기준 다양한 벤치마크에서 성능 향상 입증

소형 ($\sim$2B) GUI-grounding (GUI 접지) 에이전트는 온디바이스 배포, 접근성 도구, 저비용 반복 작업 측면에서 매력적이지만, 이 규모에서는 두 가지 미해결 과제에 직면합니다. 즉, 비용이 많이 드는 인간 주석(human annotation) 없이 어떻게 경계 상자(bounding-box) 학습 데이터를 얻을 것인가, 그리고 어떻게 지도 미세 조정(supervised fine-tuning, SFT)을 강화학습(reinforcement learning, RL)과 결합할 것인가 하는 점입니다. 우리는 모델의 규모를 키우기보다 소형 모델의 성능을 끌어올리는 것을 명시적인 목표로 삼아 이 두 가지 문제를 모두 해결합니다. WinDOM은 headless Playwright 환경에서 오픈 소스 Windows 11 웹 재구현체를 구동하여 수집한 $54,425$개의 레코드로 구성된 grounding (접지) 코퍼스이며, OCR이나 인간의 주석 없이 DOM에서 직접 읽어온 경계 상자(bounding boxes)를 사용합니다. Self-Family Distillation (SFD)은 교사(teacher) 선택에 의해서만 매개변수화되는 단일 거부 샘플링(rejection-sampling) 콜드 스타트(cold-start) 방식입니다. 이때 교사는 학생(student) 모델의 EMA(지수 이동 평균)이거나(외부 모델 없음), 고정된 더 큰 동일 계열(same-family)의 교사 모델 중 하나를 선택합니다. 그런 다음 우리는 SFD 콜드 스타트의 포화 깊이(saturation depth)를 명시적인 GRPO 하이퍼파라미터로 취급합니다. Qwen3.5-2B 학생 모델의 경우, 포화되지 않은 콜드 스타트가 수렴된 방식보다 더 나은 GRPO 초기화 도구로 작용합니다. 즉, Early-init RL을 적용한 SFD-4B는 베이스 모델 대비 OOD-mean에서 $+5.4$ ($+3.5$ ScreenSpot-Pro, $+7.0$ OSWorld-G, $+5.8$ ScreenSpot-V2)의 이득을 얻었습니다. 동일 크기의 EMA 모드는 외부 교사 없이도 교차 크기(cross-size) 4B 변형 모델과 약 1 OOD-mean 점 차이 내에 도달했습니다 ($65.2$ 대 $66.3$).

AI 자동 생성 콘텐츠

원문 바로가기

WinDOM: 소형 모델 GUI Grounding을 위한 Self-Family Distillation

요약

핵심 포인트

댓글