arXiv논문2026. 06. 18. 11:46

Skill-MAS: 자동화된 멀티 에이전트 시스템(Multi-Agent Systems)을 위한 진화하는 메타 스킬 (Meta-Skill)

요약

Skill-MAS는 LLM 기반 멀티 에이전트 시스템(MAS)의 경험 유지 문제를 해결하기 위해 진화 가능한 '메타 스킬'을 제안합니다. 파라미터 업데이트 없이도 폐쇄형 최적화 루프를 통해 시스템적 경험을 전략적 원칙으로 증류하여 성능을 높입니다.

핵심 포인트

추론 시간과 학습 시간 MAS의 한계를 극복하는 제3의 경로 제안
메타 스킬을 통한 경험 유지와 파라미터 업데이트의 분리
선택적 성찰과 계층적 대조 분석을 통한 전략적 지식 증류
다양한 LLM 및 벤치마크에서 높은 성능과 전이성 입증

대규모 언어 모델 (LLM) 기반의 자동화된 멀티 에이전트 시스템 (Multi-Agent Systems, MAS) 생성은 복잡한 과제를 해결하기 위한 중요한 개척 분야가 되었습니다. 그러나 기존 방법들은 모델의 능력과 경험 유지 사이에서 딜레마에 직면해 있습니다. 추론 시간 (Inference-time) MAS는 동결된 최첨단 LLM을 활용하지만, 과거의 경험으로부터 학습하지 못한 채 동일한 탐색을 반복합니다. 반대로, 학습 시간 (Training-time) MAS는 그래디언트 업데이트 (gradient updates)를 통해 경험을 내재화하지만, 더 작은 모델들의 낮은 능력 한계에 제약을 받으며 대규모 최첨단 LLM으로 확장하기 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 고차원적인 오케스트레이션 (orchestration) 능력을 진화 가능한 메타 스킬 (Meta-Skill)로 개념화함으로써, 경험 유지를 파라미터 업데이트 (parametric updates)로부터 분리하는 새로운 제3의 경로인 Skill-MAS를 제안합니다. Skill-MAS는 다음과 같은 폐쇄형 최적화 루프 (closed optimization loop)를 통해 이러한 아키텍처 지식을 정교화합니다: (1) 멀티 궤적 롤아웃 (Multi-Trajectory Rollout)은 현재 메타 스킬 하에서 각 과제에 대한 행동 분포를 샘플링합니다; (2) 선택적 성찰 (Selective Reflection)은 우선순위 과제를 적응적으로 선택하고 계층적 대조 분석 (hierarchical contrastive analysis)을 적용하여 시스템적 경험을 일반화 가능한 전략 수준의 원칙으로 증류합니다. 4개의 복잡한 벤치마크와 4개의 서로 다른 LLM에 걸친 광범위한 실험을 통해, Skill-MAS가 놀라운 성능 향상을 달성할 뿐만 아니라 유리한 비용 대비 성능 (cost-performance trade-off)을 유지함을 입증했습니다. 추가 분석 결과, 진화된 메타 스킬은 매우 견고하며 보지 못한 과제(unseen tasks)와 서로 다른 LLM 전반에 걸쳐 강력한 전이성 (transferability)을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Skill-MAS: 자동화된 멀티 에이전트 시스템(Multi-Agent Systems)을 위한 진화하는 메타 스킬 (Meta-Skill)

요약

핵심 포인트

댓글