대규모 에이전트 기술(Agentic Skills) 평가를 위한 프레임워크
요약
LLM 에이전트의 능력을 증강하는 '에이전트 기술(Agentic Skills)'을 체계적으로 평가하기 위한 새로운 프레임워크를 제안합니다. 500개의 기술과 1,000개의 태스크를 통해 다양한 모델의 지시 이행 및 목표 달성 능력을 분석하고 평가 데이터셋을 공개합니다.
핵심 포인트
- 에이전트 기술의 효용성을 측정하는 재사용 가능한 평가 방법론 제시
- 1,000개의 실제 태스크와 지시 이행/목표 달성 채점 루브릭 구축
- 19개 모델 구성에 대한 대규모 벤치마크 수행 및 결과 분석
- 에이전트 기술이 모델의 행동 변화에 미치는 유의미한 영향 입증
- 향후 연구를 위한 에이전트 기술 평가 데이터셋 공개
에이전트 기술(Agent skills) — LLM 에이전트의 능력을 증강하는 구조화되고 재사용 가능한 지식 산출물 — 은 산업계에서 빠르게 채택되어 왔으나, 이들의 교차 도메인 영향력과 상용 및 오픈 소스 모델 전반에서의 활용은 여전히 연구가 부족한 상태이며, 개별 기술을 평가하기 위한 재사용 가능한 방법론도 존재하지 않습니다. 본 연구에서는 기술 작성자가 자신에게 가장 중요한 기술의 측면들을 엄격하게 평가할 수 있도록 현실적인 태스크(tasks)를 구축하고, 해당 태스크들을 해결함으로써 기술의 효용성을 추정할 수 있는 평가 프레임워크를 제시합니다. 나아가, 우리는 이러한 평가 접근 방식을 500개의 실제 기술에 대규모로 적용하여, 기술의 내용에서 파생된 1,000개의 태스크와 함께 지시 이행(instruction-following) 및 목표 달성(goal-completion) 채점 루브릭(scoring rubrics)을 생성했습니다. 이러한 지표를 사용하여, 우리는 폐쇄형(proprietary) 및 오픈 소스(open-source)를 모두 포함하는 19개의 에이전트-모델 구성이 해당 태스크에서 어떻게 수행되는지 평가합니다. 우리의 결과는 모델들이 기술에 인코딩된 지시 사항을 얼마나 밀접하게 준수하는지에 따라 크게 다르며, 이는 성능 향상 폭에서도 상당한 차이를 만든다는 것을 보여줍니다. 또한, 기술에 대한 접근이 기술이 없는 설정(no-skill setup)과 비교했을 때 모델의 행동을 유의미하게 변화시킨다는 것을 보여줌으로써, LLM 에이전트에 주관적인 워크플로우(opinionated workflows)를 인코딩하기 위한 필수적인 메커니즘을 제공합니다. 우리는 에이전트 기술에 관한 향후 연구를 지원하기 위해 우리의 평가 데이터셋을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기