arXiv논문2026. 06. 12. 12:32

SkillCAT: LLM 에이전트를 위한 대비 평가 및 위상 인식 스킬 자체 진화

요약

SkillCAT은 LLM 에이전트의 스킬 자체 진화 과정을 개선한 프레임워크입니다. 이 시스템은 대비 인과 추출(CCE)을 통해 여러 궤적에서 성공/실패 쌍을 비교하고, 평가 증강 진화(AAE)로 작업 결과를 개선하는 패치만 보존합니다. 또한 위상 인식 실행(TTE)으로 필요한 스킬 노드만 로드하여 효율성을 높였습니다.

핵심 포인트

SkillCAT은 LLM 에이전트의 스킬 자체 진화를 위한 새로운 프레임워크입니다.
CCE는 성공/실패 쌍 비교를 통해 결과 차이를 설명하는 증거를 식별합니다.
AAE는 작업 결과를 개선하거나 유지하는 패치만 선별적으로 보존합니다.
TTE는 필요한 능력 노드만 로드하여 추론 효율성을 높였습니다.

LLM 에이전트의 스킬 자체 진화(skill self-evolution) 방법들은 실행 궤적(execution trajectories)을 재사용 가능한 스킬 문서로 변환하는 것을 목표로 하지만, 현재 파이프라인들은 일반적으로 작업당 하나의 궤적으로부터 학습하고, 후보 스킬 패치들을 확인하기 전에 병합하며, 추론 시 전체 스킬 코퍼스(skill corpus)를 로드합니다. 우리는 이 과정을 세 단계로 분리한, 학습이 필요 없는 프레임워크인 SkillCAT을 제안합니다. 대비 인과 추출(Contrastive Causal Extraction, CCE)은 각 작업에 대해 여러 궤적을 샘플링하고, 같은 작업의 성공/실패 쌍을 비교하여 결과 차이를 설명하는 증거를 식별합니다. 평가 증강 진화(Assessment-Augmented Evolution, AAE)는 각 후보 패치를 소스 작업 클론(source-task clones)에 재현하고, 계층적 스킬 패치 병합 전에 작업 결과를 개선하거나 유지하는 패치만 보존합니다. 위상 인식 작업 실행(Topology-Aware Task Execution, TTE)은 진화된 스킬들을 라우팅 가능한 서브-스킬 위상(sub-skill topology)으로 컴파일하여, 추론 시 해당 작업과 관련된 능력 노드만을 로드하게 합니다. 우리는 SpreadsheetBench, WikiTableQuestions, DocVQA를 포함한 일반적인 에이전트 벤치마크에서 SkillCAT을 평가하고, 추가적으로 크로스 모델 및 분포 외(out-of-distribution) 일반화 테스트를 수행합니다. 이러한 설정 전반에 걸쳐, SkillCAT은 베이스라인 대비 평균 점수를 최대 40.40% 향상시켜, 모델 학습 없이도 신뢰할 수 있는 스킬 진화를 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillCAT: LLM 에이전트를 위한 대비 평가 및 위상 인식 스킬 자체 진화

요약

핵심 포인트

댓글