arXiv논문2026. 06. 02. 11:48

MMG2Skill: 에이전트가 야생의 가이드를 자기 진화형 기술로 증류할 수 있는가?

요약

웹상의 비정형 가이드를 에이전트가 실행 가능한 기술로 변환하고 지속적으로 개선하는 MMG2Skill 프레임워크를 제안합니다. 새로운 벤치마크인 MMG2Skill-Bench를 통해 GUI 제어 및 게임 플레이 환경에서 기존 모델 대비 뛰어난 성능 향상을 입증했습니다.

핵심 포인트

비정형 가이드를 실행 가능한 기술로 변환하는 가이드-기술 학습 공식화
최초의 가이드-기술 학습 평가용 벤치마크 MMG2Skill-Bench 도입
궤적 기반 피드백을 통한 폐쇄 루프 기술 수정 프레임워크 제안
다양한 VLM 백본에서 베이스라인 대비 최대 25.3%p 성능 향상

웹(Web)에 존재하는 풍부한 절차적 지식(procedural knowledge)은 에이전트가 장기 과제(long-horizon tasks)를 해결하는 데 큰 잠재력을 가지고 있습니다. 그러나 이러한 지식은 종종 멀티모달(multimodal)적이고, 이질적(heterogeneous)이며, 노이즈가 많고, 인간 실행자를 암묵적으로 가정하고 있어 에이전트에게 필요한 기술(skills)로 직접 사용하기 어렵습니다. 인간 중심의 가이드와 에이전트 실행 가능한 기술 사이의 간극을 메우기 위해, 우리는 이 문제를 가이드-기술 학습(guide-to-skill learning)으로 공식화합니다. 즉, 야생의 가이드(in-the-wild guides)를 실행 가능한 기술로 변환하고, 에이전트가 관찰할 수 있는 궤적(trajectories)으로부터 이를 지속적으로 개선하는 것입니다. 이 과제에 대한 기존 에이전트들의 능력을 평가하기 위해, 우리는 이 문제를 위해 설계된 최초의 벤치마크인 MMG2Skill-Bench를 소개합니다. 나아가 우리는 가이드를 편집 가능한 기술로 컴파일하고, 실행 중에 이러한 기술을 바탕으로 고정된 시각-언어 모델 (VLM) 에이전트를 조건화(conditioning)하며, 벤치마크 점수를 사용하지 않고 궤적 수준의 근본 원인 피드백(root-cause feedback)으로부터 기술을 수정하는 폐쇄 루프(closed-loop) 프레임워크인 MMG2Skill을 제안합니다. GUI 제어, 개방형 게임 플레이, 그리고 6개의 VLM 백본(backbones)을 활용한 전략적 카드 플레이 전반에 걸쳐, MMG2Skill은 모든 모델-도메인 설정에서 바닐라 베이스라인(vanilla baseline) 에이전트보다 일관되게 우수한 성능을 보였으며, 백본 전반에 걸쳐 +12.8에서 +25.3 퍼센트 포인트의 거시 평균(macro-average) 이득을 달성했습니다. 절제 연구(Ablation studies)에 따르면, 원시 가이드(raw guides)로 에이전트에게 직접 프롬프팅(prompting)하는 것은 성능을 저하시킬 수 있는 반면, 구조화된 기술 구축(structured skill construction)과 궤적 기반 수정(trajectory-driven revision) 모두 관찰된 성능 향상을 위해 필수적임을 보여줍니다. 성공 추론이 가능한 과제에서는, 분석기 기반의 조기 종료(early stopping)가 후기 단계의 성능 퇴보를 방지하며, 성공 신호가 적절히 보정되었을 때 시도 횟수의 25%-53%를 절약합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MMG2Skill: 에이전트가 야생의 가이드를 자기 진화형 기술로 증류할 수 있는가?

요약

핵심 포인트

댓글