arXiv논문2026. 06. 30. 11:26

RESOURCE2SKILL: 인간이 생성한 멀티모달 리소스로부터 실행 가능한 에이전트 기술 증류하기

요약

인간의 멀티모달 리소스(영상, 코드, 기사 등)를 에이전트용 실행 가능한 기술로 변환하는 RESOURCE2SKILL 프레임워크를 제안합니다. 계층적 기술 위키를 통해 에이전트의 성능을 크게 향상시키며, 부족한 지식은 온라인 학습을 통해 보완할 수 있습니다.

핵심 포인트

멀티모달 리소스를 활용한 에이전트 기술 증류 프레임워크 제안
계층적 멀티모달 기술 위키(Skill Wiki) 구조 설계
기존 에이전트 대비 평균 성능 11.9%p 향상
영상, 코드, 텍스트의 상호 보완적 신호 보존 및 활용

기술(Skills)은 인간과 에이전트의 경험을 재사용 가능한 절차적 지식(procedural knowledge)으로 전환함으로써 소프트웨어 에이전트에게 유용한 추상화 도구가 됩니다. 그러나 기존의 기술 라이브러리(skill libraries)는 대부분 수작업으로 작성되었거나, 텍스트 중심적이거나, 또는 에이전트의 흔적(agent traces)에서 파생되었기에, 튜토리얼 영상 및 기타 멀티모달(multimodal) 인간 리소스는 대체로 제대로 활용되지 못하고 있습니다. 우리는 튜토리얼 영상, 저장소(repositories), 기사 및 참조 아티팩트(reference artifacts)를 포함한 멀티모달 리소스를 소프트웨어 에이전트를 위한 실행 가능한 기술로 증류(distill)하는 프레임워크인 RESOURCE2SKILL을 제시합니다. RESOURCE2SKILL은 이러한 기술들을 계층적 멀티모달 기술 위키(Skill Wiki)로 구성하며, 각 항목은 구조화된 텍스트, 코드, 시각적 예시, 메타데이터 및 출처(provenance)를 결합합니다. 이러한 설계는 서로 다른 리소스로부터 오는 상호 보완적인 신호들을 보존합니다: 영상은 시간적 동작(temporal operations)과 시각적 효과를 포착하고, 코드는 실행 가능한 도구 패턴(tool patterns)을 포착하며, 기사나 아티팩트는 개념적 및 스타일적 근거(grounding)를 제공합니다. 추론(inference) 시점에 에이전트는 위키에서 관련 기술을 검색하고 조합합니다; 커버리지가 불충분할 경우, 동일한 구성 연산자(construction operator)를 통해 온라인에서 새로운 기술을 습득할 수 있습니다. 7개의 실질적인 저작 도메인(authoring domains) 전반에 걸쳐, RESOURCE2SKILL은 기술이 없는 에이전트 대비 평균 전체 점수를 +11.9 퍼센트 포인트 향상시켰으며, 28개의 주요 집계 모델-도메인 셀 중 26개에서 강력한 하네스 베이스라인(harness baselines)을 능가했습니다. 절제 연구(Ablations)를 통해 멀티모달 기술 형식, 계층적 조직, 소스 다양성, 선택 전략 및 온라인 습득의 가치를 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RESOURCE2SKILL: 인간이 생성한 멀티모달 리소스로부터 실행 가능한 에이전트 기술 증류하기

요약

핵심 포인트

댓글