arXiv논문2026. 05. 19. 17:26

SkillGenBench: LLM 에이전트를 위한 기술 생성 파이프라인 벤치마킹

요약

LLM 에이전트가 저장소와 문서로부터 실행 가능한 기술(skills)을 직접 생성하는 능력을 평가하기 위한 새로운 벤치마크인 SkillGenBench를 소개합니다. 이 벤치마크는 태스크 조건부 및 태스크 불가지론적 생성 체제와 코드 저장소 및 문서 기반의 두 가지 소스를 모두 다룹니다. 실험을 통해 다양한 방법론 간의 성능 차이와 기술 추출 과정에서의 주요 실패 모드를 규명하였습니다.

핵심 포인트

LLM 에이전트의 핵심 과제가 기술 사용을 넘어 기술 생성 능력으로 확장됨을 강조
SkillGenBench는 통제된 프로토콜 하에서 기술 생성 파이프라인을 평가하는 표준화된 테스트베드 제공
태스크 조건부(Task-conditioned)와 태스크 불가지론적(Task-agnostic) 생성 방식을 모두 포함
코드 저장소와 긴 형식의 문서라는 두 가지 서로 다른 소스에서의 기술 추출 능력 평가
결정론적 실행 기반 검사를 통해 생성된 기술의 정확성과 실행 가능성을 검증

LLM 에이전트가 재사용 가능한 기술 (skills)을 중심으로 점점 더 많이 구축됨에 따라, 핵심적인 과제는 이제 에이전트가 제공된 기술을 사용할 수 있는지 여부뿐만 아니라, 저장소 (repositories)와 문서로부터 정확하고 재사용 가능하며 실행 가능한 기술을 생성할 수 있는지 여부로 옮겨가고 있습니다. 기존의 벤치마크들은 주로 주어진 기술의 효능이나 에이전트가 가공되지 않은 문맥 (raw context)으로부터 다운스트림 태스크 (downstream tasks)를 해결하는 능력을 평가하지만, 기술 생성 (skill generation) 자체를 연구 대상으로 분리하여 다루지는 않습니다. 우리는 통일되고 통제된 프로토콜 하에서 기술 생성 파이프라인을 평가하기 위한 벤치마크인 SkillGenBench를 소개합니다. SkillGenBench에서 생성기 (generator)는 가공되지 않은 말뭉치 (raw corpora)를 전달받아 표준화된 기술 아티팩트 (skill artifacts)를 생성하며, 이는 고정된 하네스 (harnesses) 하에서 실행된 후 통일된 평가 절차에 따라 평가됩니다. 이 벤치마크는 두 가지 생성 체제 (generation regimes)를 다룹니다: 태스크 조건부 생성 (task-conditioned generation)은 태스크가 공개된 후 태스크별 기술을 합성하는 방식이며, 태스크 불가지론적 생성 (task-agnostic generation)은 다운스트림 태스크가 알려지기 전에 재사용 가능한 기술 라이브러리를 추출해야 하는 방식입니다. 또한 두 가지 상호 보완적인 절차적 소스 (procedural sources)를 포괄합니다: 절차가 코드, 설정 (configuration), 스크립트에 분산되어 있는 저장소 기반 인스턴스 (repository-grounded instances)와, 절차 및 제약 조건이 긴 형식의 텍스트 (long-form text)로부터 추출되어야 하는 문서 기반 인스턴스 (document-grounded instances)입니다. 우리는 표준화된 태스크 명세 (task specifications), 고정된 환경 (pinned environments), 그리고 진단을 위한 보조 신호로 보완된 결정론적 실행 기반 검사 (deterministic execution-based checks) 중심의 평가 프로토콜을 제공합니다. 다양한 기술 생성 방법론과 백본 (backbones)에 걸친 실험 결과, 상당한 성능 차이가 나타났으며, 재사용 가능한 기술 추출의 어려움을 강조하고, 소프트웨어 저장소와 긴 형식의 문서로부터 기술을 생성할 때 나타나는 뚜렷한 실패 모드 (failure modes)를 밝혀냈습니다. SkillGenBench는 에이전트 시스템에서 기술 생성을 독립적인 연구 문제로 연구하기 위한 재현 가능한 테스트베드 (testbed)를 구축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillGenBench: LLM 에이전트를 위한 기술 생성 파이프라인 벤치마킹

요약

핵심 포인트

댓글