본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:45

GUI 에이전트를 위한 기술 가이드 기반 연속 증류 (Skill-Guided Continuation Distillation)

요약

GUI 에이전트의 오프-궤적 상태 문제를 해결하기 위해 기술 가이드 기반 연속 증류(SGCD) 프레임워크를 제안합니다. SGCD는 전문가 궤적을 벗어난 상태에서도 성공적인 연속 실행을 생성하여 정책의 감독 격차를 해소합니다. OSWorld-Verified 벤치마크에서 모델의 성공률을 30%대에서 50% 이상으로 크게 향상시켰습니다.

핵심 포인트

  • 전문가 궤적을 벗어난 오프-궤적 상태의 감독 격차 문제 해결
  • SGCD 프레임워크를 통한 반복적인 자기 개선 메커니즘 제안
  • 연속 계획, 핵심 목표, 실패 함정 등 기술 기반 데이터 추출
  • OSWorld-Verified 환경에서 성공률을 50% 이상으로 개선

GUI 에이전트를 개선하는 것은 일반적으로 전문가 궤적 (expert trajectories)에 대한 행동 복제 (behavior cloning)에 의존합니다. 그러나 현재의 정책 (policy)이 전문가 정책에서 벗어남에 따라, 폐루프 실행 (closed-loop execution) 중에 필연적으로 정책 유발 오프-궤적 상태 (policy-induced off-trajectory states), 즉 전문가 궤적을 벗어난 상태에 직면하게 됩니다. 전문가 궤적은 이러한 미학습 상태에 대한 시연 (demonstrations)을 제공하지 않기 때문에, 이러한 상태들은 효과적인 감독 (supervision)을 받지 못하며, 결과적으로 정책이 올바른 행동을 선택할 수 없게 만듭니다. 이러한 감독 격차 (supervision gap)를 해소하기 위해, 우리는 반복적인 자기 개선 프레임워크인 기술 가이드 기반 연속 증류 (Skill-Guided Continuation Distillation, SGCD)를 제안합니다. SGCD는 먼저 기술 가이드 없이 일반 정책을 몇 단계 실행하여 현실적인 오프-궤적 상태에 도달하게 합니다. 이러한 상태로부터, 기술 가이드 기반 정책이 작업을 완료하고 성공적인 연속 실행 (continuations)을 생성하며, 이는 전문가 궤적과 혼합되어 정책 유발 오프-궤적 상태에 대한 감독을 제공합니다. 기술은 성공 및 실패한 롤아웃 (rollouts) 모두에서 추출되며, 이는 연속 계획 (Continuation Plans), 핵심 목표 (Critical Targets), 실패 함정 (Failure Traps), 그리고 성공 기준 (Success Criteria)으로 구성됩니다. OSWorld-Verified에서 SGCD는 세 가지 기본 모델의 성공률을 30% 초반대에서 50% 이상으로 향상시켜, 그 효과와 범용성을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0