arXiv논문2026. 06. 16. 12:14

OpenClaw-Skill: 에이전트형 거대 언어 모델(Agentic LLM)을 위한 집합적 기술 트리 탐색

요약

LLM 에이전트의 기술 역량을 강화하기 위해 집합적 기술 트리 탐색(CSTS) 프레임워크를 제안합니다. 집합 지성을 활용해 기술 노드를 생성하고 평가함으로써, 모델이 복잡한 과업을 수행할 수 있는 재사용 가능한 기술 트리를 자동으로 구축합니다.

핵심 포인트

CSTS 프레임워크를 통한 자동화된 기술 트리 구축
CSN-Gen과 CSN-Assess를 통한 집합적 기술 생성 및 평가
기술의 효과성과 모델 간 전이 가능성을 동시에 검증
OpenClaw-Skill 모델의 장기 계획 및 도구 사용 능력 향상

OpenClaw와 같은 실제 시스템에서 복잡한 과업을 해결하기 위해서는 거대 언어 모델 (LLM) 에이전트에 효과적인 기술 (skill)을 갖추는 것이 매우 중요합니다. 본 연구에서는 도구 사용 (tool use), 다단계 추론 (multi-step reasoning), 그리고 동적 환경 상호작용 (dynamic environment interaction) 측면에서 LLM을 강화하기 위해, 이러한 재사용 가능한 기술을 자동으로 구축하는 프레임워크를 개발하는 것을 목표로 합니다. 이를 위해 우리는 구조화되고 다양하며 일반화 가능한 기술 트리 (tree of skills)를 구축하는 새로운 트리 탐색 기반 기술 구축 프레임워크인 집합적 기술 트리 탐색 (Collective Skill Tree Search, CSTS)을 제안합니다. CSTS의 핵심 아이디어는 집합 지성 (collective intelligence)을 활용하여 두 가지 반복적인 단계, 즉 집합적 기술 노드 생성 (Collective Skill Node Generation, CSN-Gen)과 집합적 기술 노드 평가 (Collective Skill Node Assessment, CSN-Assess)를 통해 효과적인 기술을 공동으로 탐색, 식별 및 구성하는 것입니다. CSN-Gen은 여러 모델로부터의 집합적 지식을 활용하여 각 하위 과업 (subtask)에 대한 다양한 후보 기술을 탐색함으로써 포괄적인 기술 탐색을 가능하게 합니다. CSN-Assess는 여러 모델을 심사위원 (judges)으로 채택하여 두 가지 점수 산정 메커니즘을 통해 기술 노드를 평가하고 선택합니다: (1) 독립적인 평가를 통합하여 기술의 효과성에 대한 견고한 추정치를 생성하는 집합적 품질 점수 산정 (collective quality scoring), 그리고 (2) 기술이 서로 다른 모델 간에 잘 일반화되는지 명시적으로 검증하는 집합적 전이 가능성 점수 산정 (collective transferability scoring)입니다. CSTS를 통해 우리는 기술이 강화된 훈련 데이터와 함께 포괄적인 기술 트리 세트를 구축하여, 모델이 기술을 효과적으로 학습하고 활용할 수 있도록 합니다. 또한, 우리는 트리에서 여러 관련 기술을 능동적으로 선택하여 솔루션 공간 탐색을 넓히고, 단일 기술과 그로 인한 균질하거나 차선책인 솔루션에 갇히는 것을 방지하는 집합적 기술 강화 학습 (Collective Skill Reinforcement Learning)을 도입합니다. 그 결과, 우리가 훈련시킨 모델인 OpenClaw-Skill은 장기 계획 (long-horizon planning), 도구 사용 (tool use), 그리고 도전적인 벤치마크에서의 일반화 성능 측면에서 뛰어난 에이전트 역량을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenClaw-Skill: 에이전트형 거대 언어 모델(Agentic LLM)을 위한 집합적 기술 트리 탐색

요약

핵심 포인트

댓글