arXiv논문2026. 05. 25. 16:47

OpenSkillEval: LLM 에이전트를 위한 오픈 스킬 생태계 자동 감사

요약

LLM 에이전트의 성능을 높이는 '스킬' 생태계를 자동으로 감사하고 평가하는 프레임워크인 OpenSkillEval을 제안합니다. 5가지 애플리케이션 범주에서 동적으로 생성된 태스크를 통해 스킬의 품질과 에이전트와의 상호작용을 체계적으로 분석합니다.

핵심 포인트

OpenSkillEval: 에이전트와 스킬을 위한 자동 평가 프레임워크
5가지 실제 애플리케이션 범주 기반의 동적 태스크 생성
스킬 가용성이 반드시 효과적인 성능으로 이어지지는 않음
스킬 강화 효과는 기반 모델과 프레임워크에 따라 상이함

스킬(Skills), 즉 대규모 언어 모델(LLMs)을 위해 정제된 구조화된 워크플로우 지침은 실제 다운스트림 태스크(downstream tasks)에서 에이전트의 성능을 향상시키는 데 점점 더 중요한 메커니즘이 되고 있습니다. 그러나 오픈 소스 스킬 생태계가 급격히 확장됨에 따라, 서로 다른 모델과 에이전트 프레임워크(agent frameworks)가 스킬과 어떻게 상호작용하는지, 스킬의 품질을 어떻게 평가하는지, 그리고 사용자가 실제 비용 대비 성능(cost-performance trade-offs)을 고려하여 어떻게 스킬을 선택해야 하는지는 여전히 불분명합니다. 본 논문에서는 스킬이 강화된 에이전트 시스템과 스킬 자체 모두를 위한 자동 평가 프레임워크인 \textsc{OpenSkillEval}을 제시합니다. \textsc{OpenSkillEval}은 정적인 벤치마크(benchmarks)에 의존하는 대신, 프레젠테이션 생성(presentation generation), 프론트엔드 웹 디자인(front-end web design), 포스터 생성(poster generation), 데이터 시각화(data visualization), 보고서 생성(report generation)의 5가지 다운스트림 애플리케이션 범주에 걸쳐 진화하는 실제 산출물로부터 현실적인 태스크 인스턴스(task instances)를 자동으로 구축합니다. 나아가 통일된 태스크 설정 하에서 통제된 비교를 위해 커뮤니티에서 기여한 스킬들을 수집하고 정리합니다. 600개 이상의 동적으로 생성된 태스크 인스턴스와 30개의 오픈 소스 스킬을 사용하여, 최신 모델 및 에이전트 프레임워크에 대한 체계적인 평가를 수행합니다. 연구 결과에 따르면, 스킬의 가용성이 효과적인 스킬 사용을 보장하지 않으며, 스킬 강화(skill augmentation)의 이점은 기반 모델과 에이전트 프레임워크 모두에 크게 의존하며, 대중적으로 인기 있는 많은 스킬이 스킬이 없는 기본 에이전트(base agents)보다 일관되게 뛰어난 성능을 보이지 않는다는 것을 보여줍니다. 이러한 발견은 동적이고 태스크에 기반한(task-grounded) 평가의 필요성을 강조하며, LLM 에이전트를 위한 스킬의 설계, 선택 및 배포에 대한 실질적인 통찰력을 제공합니다. 추가적인 사례와 벤치마크 리소스는 프로젝트 웹사이트에서 확인할 수 있습니다: https://yingjiahao14.github.io/OpenSkillEval-Web/.

AI 자동 생성 콘텐츠

원문 바로가기

OpenSkillEval: LLM 에이전트를 위한 오픈 스킬 생태계 자동 감사

요약

핵심 포인트

댓글