arXiv논문2026. 05. 08. 12:51

SkillOS: Learning Skill Curation for Self-Evolving Agents

요약

SkillOS는 LLM 기반 에이전트가 과거 경험으로부터 재사용 가능한 스킬을 학습하고 큐레이션하여 자기 진화를 할 수 있도록 설계된 새로운 프레임워크입니다. 기존 방법들이 직면했던 간접적이고 지연된 피드백을 통한 장기적인 스킬 큐레이션 정책 학습의 어려움을 해결합니다. SkillOS는 고정된 에이전트 실행기와 누적 경험을 바탕으로 외부 스킬 저장소(SkillRepo)를 업데이트하는 훈련 가능한 스킬 큐레이터를 결합하여, 복합 보상을 통해 효과적으로 스킬 사용을 최적화하고 일반화 성능을 입증합니다.

핵심 포인트

SkillOS는 LLM 에이전트의 자기 진화를 위한 경험 기반 강화 학습(RL) 프레임워크입니다.
핵심은 고정된 실행기와 외부 SkillRepo를 업데이트하는 훈련 가능한 스킬 큐레이터를 분리하여 설계한 것입니다.
복합 보상(composite rewards)을 사용하여 장기적인 관점에서 스킬 사용의 효과성을 학습시킵니다.
SkillOS는 메모리 기반 및 비메모리 기반 베이스라인 모두에서 우수한 성능과 일반화 능력을 보여줍니다.

LLM 기반 에이전트는 스트리밍 작업을 처리하기 위해 점점 더 많이 배포되고 있지만, 종종 과거 상호작용에서 학습하지 못하는 일회성 문제 해결자 역할을 합니다. 경험에서 추출 가능한 재사용 가능한 스킬은 자기 진화 (self-evolution) 의 자연스러운 기저를 제공하며, 여기서 고품질 스킬 큐레이션이 핵심 병목 현상을 이룹니다. 기존 접근 방식은 수동 스킬 큐레이션에 의존하거나, heuristics 기반 스킬 작업을 규정하거나, 짧은 지평의 스킬 작업 훈련을 수행합니다. 그러나 간접적이고 지연된 피드백으로부터 복잡한 장기 큐레이션 정책을 학습하는 데 여전히 어려움을 겪습니다. 이 과제를 해결하기 위해 우리는 자기 진화 에이전트에서 스킬 큐레이션을 학습하기 위한 경험 기반 RL (Reinforcement Learning) 훈련 레시피인 SkillOS 를 제안합니다. SkillOS 는 스킬을 검색하고 적용하는 고정된 에이전트 실행기와, 누적 경험을 바탕으로 외부 SkillRepo 를 업데이트하는 훈련 가능한 스킬 큐레이터를 결합합니다. 큐레이션에 대한 학습 신호를 제공하기 위해 우리는 스킬 관련 작업 의존성에 기반한 그룹화된 작업 스트림에서 복합 보상 (composite rewards) 을 설계하고 훈련하며, 초기 궤적은 SkillRepo 를 업데이트하고 후기 관련 작업은 이러한 업데이트를 평가합니다. 멀티 턴 에이전트 작업과 단일 턴 추론 작업 모두에서 SkillOS 는 효과성과 효율성 측면에서 메모리 없는 (memory-free) 및 강력한 메모기 기반 베이스라인을 지속적으로 상회하며, 학습된 스킬 큐레이터는 다른 실행기 백본과 작업 도메인에서도 일반화됩니다. 추가 분석은 학습된 큐레이터가 더 타겟팅된 스킬 사용을 생성하고, SkillRepo 의 스킬이 시간이 지남에 따라 더 풍부하게 구조화된 Markdown 파일로 진화하며 상위 수준의 메타 스킬을 인코딩함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillOS: Learning Skill Curation for Self-Evolving Agents

요약

핵심 포인트

댓글