GUI 에이전트를 위한 기술 가이드 기반 연속 증류 (Skill-Guided Continuation Distillation)

GUI 에이전트를 개선하는 것은 일반적으로 전문가 궤적 (expert trajectories)에 대한 행동 복제 (behavior cloning)에 의존합니다. 그러나 현재의 정책 (policy)이 전문가 정책에서 벗어남에 따라, 폐루프 실행 (closed-loop execution) 중에 필연적으로 정책 유발 오프-궤적 상태 (policy-induced off-trajectory states), 즉 전문가 궤적을 벗어난 상태에 직면하게 됩니다. 전문가 궤적은 이러한 미학습 상태에 대한 시연 (demonstrations)을 제공하지 않기 때문에, 이러한 상태들은 효과적인 감독 (supervision)을 받지 못하며, 결과적으로 정책이 올바른 행동을 선택할 수 없게 만듭니다. 이러한 감독 격차 (supervision gap)를 해소하기 위해, 우리는 반복적인 자기 개선 프레임워크인 기술 가이드 기반 연속 증류 (Skill-Guided Continuation Distillation, SGCD)를 제안합니다. SGCD는 먼저 기술 가이드 없이 일반 정책을 몇 단계 실행하여 현실적인 오프-궤적 상태에 도달하게 합니다. 이러한 상태로부터, 기술 가이드 기반 정책이 작업을 완료하고 성공적인 연속 실행 (continuations)을 생성하며, 이는 전문가 궤적과 혼합되어 정책 유발 오프-궤적 상태에 대한 감독을 제공합니다. 기술은 성공 및 실패한 롤아웃 (rollouts) 모두에서 추출되며, 이는 연속 계획 (Continuation Plans), 핵심 목표 (Critical Targets), 실패 함정 (Failure Traps), 그리고 성공 기준 (Success Criteria)으로 구성됩니다. OSWorld-Verified에서 SGCD는 세 가지 기본 모델의 성공률을 30% 초반대에서 50% 이상으로 향상시켜, 그 효과와 범용성을 입증했습니다.

Insights

GUI 에이전트를 위한 기술 가이드 기반 연속 증류 (Skill-Guided Continuation Distillation)

요약

핵심 포인트

댓글

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다