SkillComposer: 명세화(Specification) 및 일반화(Generalization)를 위한 에이전트 기술 진화 학습법
요약
SkillComposer는 에이전트 기술을 생성, 개선, 병합하는 세 가지 연산을 통해 기술의 명세화와 일반화 문제를 해결하는 프레임워크입니다. 거부 샘플링을 통해 학습된 이 모델은 추론 시점에 에이전트 기술을 스스로 진화시키며 다양한 벤치마크에서 우수한 성능을 입증했습니다.
핵심 포인트
- 에이전트 기술을 생성, 개선, 병합의 세 단계로 분해하여 학습
- 오프라인, 온라인, 하이브리드 세 가지 배포 모드 지원
- SkillComposer-4B가 27B 모델의 성능을 크게 향상
- 학습되지 않은 도메인과 작업 유형에 대한 높은 일반화 성능
에이전트의 추론과 행동을 안내하는 재사용 가능한 전략으로 구성된 에이전트 기술(Agent skills)은 추론 시점(inference time)에서 모델의 능력을 향상시키는 데 강력한 잠재력을 보여주었습니다. 그러나 현재의 기술 구축 방법들은 이 문제를 일회성 추출(one-shot extraction)로 취급하며, 근본적인 긴장 관계를 간과하고 있습니다. 즉, 특정 작업에 맞춤화된 기술은 전이(transfer)에 실패하는 반면, 추상화된 기술은 종종 불충분한 가이드를 제공한다는 점입니다. 우리는 이러한 취약성이 기술의 명세화(specification)와 일반화(generalization)를 위한 명시적인 메커니즘의 부재 때문이라고 판단합니다. 이러한 격차를 해소하기 위해, 우리는 기술 구축을 세 가지 학습 가능한 연산인 생성(create), 개선(improve), 병합(merge)으로 분해하는 프레임워크인 SkillComposer를 소개합니다. 체계적인 거부 샘플링(rejection sampling) 레시피를 통해 학습된 SkillComposer는 언어 모델이 추론 시점에 기술을 스스로 진화(self-evolve)할 수 있게 하며, 세 가지 배포 모드를 지원합니다: 일반화된 라이브러리 구축을 위한 오프라인(offline) 모드, 작업별 정교화를 위한 온라인(online) 모드, 그리고 이 둘을 결합한 하이브리드(hybrid) 모드입니다. $\tau^2$-Bench, LiveCodeBench v6, 그리고 AppWorld에 대한 종합적인 실험 결과, SkillComposer가 일관되게 베이스라인(baselines) 모델들을 능가함을 보여주었습니다. 우리의 SkillComposer-4B는 27B 실행기(executor)의 성능을 에이전트 작업에서 최대 +4.5, 코드 작업에서 +3.4까지 향상시켰으며, 학습 중에 보지 못한 도메인과 작업 유형에 대해서도 일반화 성능을 보여주었습니다. 분석 결과, 병합(merge)과 개선(improve)은 서로 직교하는 품질 차원(orthogonal quality dimensions)을 다루며, 기술 구성(skill composition)은 전이 가능한 메타 능력(meta-ability)임을 밝혀냈습니다. 이는 기술 증강 추론(skill-augmented inference)을 위한 실질적인 레시피를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기