arXiv논문2026. 05. 28. 12:08

약점으로부터 배우기: 소형 컴퓨터 사용 에이전트(Computer-Use Agents)를 위한 자동화된 도메인 특화 기술

요약

소형 컴퓨터 사용 에이전트(CUA)의 도메인 특화 성능을 높이기 위한 새로운 프레임워크 LearnWeak를 소개합니다. 이 방식은 학생 모델의 약점을 식별하여 타겟팅된 데이터를 합성하고, 계획 및 실행 오류를 분리하여 학습하는 오류 인식 목적 함수를 사용합니다.

핵심 포인트

LearnWeak 프레임워크를 통한 소형 CUA의 도메인 특화
학생 모델의 약점을 식별하여 타겟팅된 태스크 및 감독 자동 구축
계획 오류와 실행 오류를 분리하는 오류 인식 목적 함수 도입
OSWorld 벤치마크에서 기존 모델 대비 약 11% 성능 향상 달성

컴퓨터 사용 에이전트 (Computer-use agents, CUAs)는 최근 상당한 발전을 이루었으나, 각 소프트웨어 도메인마다 별도의 대규모 전문가 모델을 배포하는 것은 여전히 비용이 많이 듭니다. 소형 오픈 소스 컴퓨터 사용 에이전트는 더 실용적인 특화 대상이지만, 여전히 성능이 상당히 낮으며 도메인별로 불균형한 실패 양상을 보입니다. 간단한 해결책은 대상 도메인을 위한 대규모 학습 데이터를 합성하는 것이지만, 우리는 이러한 단순한 접근 방식이 미미한 개선만을 가져온다는 것을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 더 강력한 참조 에이전트 (reference agent)를 사용하여 대상 도메인에서 학생 모델 (student)의 약점을 식별하고, 타겟팅된 태스크를 합성하며, 감독 (supervision)을 자동으로 구축하는 소형 컴퓨터 사용 에이전트용 어노테이션 프리 (annotation-free) 특화 프레임워크인 LearnWeak를 소개합니다. LearnWeak는 계획 (planning) 오류와 실행 (execution) 오류를 분리하는 오류 인식 특화 목적 함수 (error-aware specialization objective)를 추가로 도입하여, 광범위하고 균일한 감독보다 행동적으로 더 정밀한 업데이트를 가능하게 합니다. OSWorld에서 LearnWeak는 8개 도메인에 걸쳐 EvoCUA-8B 및 OpenCUA-7B 대비 각각 평균 11.6 및 11.1 퍼센트 포인트의 이득을 달성했습니다. 또한 우리는 우리의 학생 인식 데이터셋 생성 및 학습 방식이 기존의 자율 궤적 생성 (autonomous trajectory generation) 및 학습 베이스라인보다 우수함을 검증했습니다. 우리의 연구는 데이터 합성 및 에이전트 학습 모두에서 학생 인식 (student awareness)의 중요성을 강조하며, 다양한 도메인에서 소형 컴퓨터 사용 에이전트를 특화시키기 위한 더 원칙적이고 효율적인 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

약점으로부터 배우기: 소형 컴퓨터 사용 에이전트(Computer-Use Agents)를 위한 자동화된 도메인 특화 기술

요약

핵심 포인트

댓글