arXiv논문2026. 06. 19. 10:41

상호작용 궤적 마이닝을 통한 컴퓨터 사용 에이전트용 SKILL.md 생성 자동화

요약

GUI 궤적 마이닝을 통해 컴퓨터 사용 에이전트용 기술 라이브러리(SKILL.md)를 자동 생성하는 3단계 파이프라인을 제안합니다. 연구 결과, 마이닝된 클러스터는 높은 순도를 보였으나 실제 정책 성능 향상 및 도메인 전이에는 한계가 있음을 확인했습니다.

핵심 포인트

GUI 궤적 세분화 및 클러스터링을 통한 기술 마이닝 파이프라인 제안
마이닝된 클러스터가 높은 레이블 순도를 보임을 입증
현재 기술로는 교차 도메인 정책 개선 및 성능 향상에 한계 존재
경계 탐지기 및 오프라인 보상 모델의 개선 필요성 시사

명시적인 기술 라이브러리(skill libraries)는 컴퓨터를 사용하는 에이전트(computer-using agents)를 검사하기 더 쉽게 만들지만, 이러한 라이브러리를 상호작용 데이터로부터 다운스트림 정책(downstream policies)을 개선하는 방식으로 마이닝할 수 있는지 여부는 여전히 불분명합니다. 우리는 GUI 궤적(trajectories)을 세분화하고, 세그먼트를 후보 기술(candidate skills)로 클러스터링하며, 결과물인 어노테이션(annotations)으로부터 기술 인식 정책(skill-aware policy)을 학습시키는 3단계 파이프라인을 통해 이 문제를 연구합니다. 마이닝된 클러스터들은 소스 벤치마크에서 판독 가능합니다: 8개 클러스터 중 5개가 InteraSkill Workflows 레이블에 대해 최소 0.95의 순도(purity)를 보였습니다. 그러나 판독 가능성이 전이(transfer)를 의미하지는 않습니다. GRPO는 IW 기술 단계(skill-step) 정확도를 18.5%에서 20.5%로 향상시키는 데 그쳤고, BrowseComp+를 본질적으로 변화시키지 못했으며, 주요 소스 도메인 지표에서 사소한 빈도 사전 확률(frequency priors)보다 성능이 낮았습니다. 따라서 우리는 이 방법을 진단 연구(diagnostic study)로 제시합니다: 궤적 마이닝(trajectory mining)은 검사 가능한 기술 구조를 드러낼 수 있지만, 현재의 경계 탐지기(boundary detector), 순서 없는 세그먼트 표현(orderless segment representation), 그리고 오프라인 보상 모델(offline reward model)은 신뢰할 수 있는 교차 도메인 정책 개선을 위해서는 불충분합니다.

AI 자동 생성 콘텐츠

원문 바로가기

상호작용 궤적 마이닝을 통한 컴퓨터 사용 에이전트용 SKILL.md 생성 자동화

요약

핵심 포인트

댓글