arXiv논문2026. 06. 15. 08:26

SkillJuror: 에이전트 기술 조직화가 실행 시 동작에 미치는 영향 측정

요약

에이전트 기술(Agent Skills)의 조직화 방식이 실행 동작에 미치는 영향을 분석하는 프레임워크 SkillJuror를 제안합니다. 점진적 공개(Progressive Disclosure) 방식이 에이전트의 리소스 활용도를 높이고 성능을 개선함을 입증했습니다.

핵심 포인트

SkillJuror 프레임워크를 통한 에이전트 기술 작성 패러다임 평가
점진적 공개 방식이 에이전트의 기술 리소스 채택률을 유의미하게 향상
기술 조직화가 에이전트의 절차적 지식 검색 및 적용 방식에 영향
작업 특성(구현/점검 vs 출력 규약 준수)에 따른 효과 차이 확인

에이전트 기술 (Agent Skills)은 추론 시점에 절차적 지식 (procedural knowledge)을 통해 대규모 언어 모델 (LLM) 에이전트를 보강하지만, 현재의 벤치마크는 기술이 무엇을 말하는지와 그것이 어떻게 조직화되어 있는지를 거의 구분하지 않습니다. 우리는 간결한 루트 파일이 에이전트에게 필요에 따라 지원 리소스를 안내하는 점진적 공개 (Progressive Disclosure) 방식을 통해 이 차이를 연구하며, 이를 정규화된 평면 베이스라인 (normalized flat baseline)과 비교합니다. 우리는 작업 지식을 고정한 상태에서 의미론적으로 제어된 변형 (semantically controlled variants), 매칭된 다중 시행 평가 (matched multi-trial evaluations), 그리고 궤적 증거 (trajectory evidence)를 통해 기술 작성 패러다임을 평가하는 프레임워크인 SkillJuror를 제시합니다. 82개 작업으로 구성된 SkillsBench 연구에서, 점진적 공개 (Progressive Disclosure)는 총체적인 결과 이전에 실행 시 동작을 변화시킵니다. 궤적당 접근하는 별도의 기술 리소스가 1.18에서 3.85로 증가하고, 유효한 채택 이벤트 (effective uptake events)가 1.33에서 3.92로 증가합니다. 또한 정규화된 평면 베이스라인 대비 410개의 매칭된 시행 중 17개의 검증기 통과 시행을 추가로 확보했습니다 (+4.1%). 이러한 이점은 작업에 따라 달라집니다. 점진적 공개 (Progressive Disclosure)는 지원 리소스가 구현, 점검 또는 수리를 안내할 때는 도움이 되지만, 성공 여부가 정확한 출력 규약 (output conventions), 수치 임계값 (numerical thresholds), 또는 긴 아티팩트 생성 파이프라인 (long artifact-generation pipelines)에 달려 있을 때는 효과가 약합니다. 이러한 결과는 기술 조직화가 단순한 제시 방식이 아님을 보여줍니다. 즉, 기술 조직화는 에이전트가 절차적 지식을 검색하고 적용하는 방식을 변화시킬 수 있으며, 결과적인 이득은 노출된 리소스가 해당 작업에 실행 가능한지 여부에 달려 있습니다. 코드는 https://github.com/zhiyuchen-ai/skill-juror 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillJuror: 에이전트 기술 조직화가 실행 시 동작에 미치는 영향 측정

요약

핵심 포인트

댓글