GitHub요약2026. 05. 21. 01:04

jfrog/agent-belt

요약

jfrog/agent-belt는 Claude Code, Cursor, GitHub Copilot 등 다양한 AI 코딩 에이전트의 성능을 재현 가능한 방식으로 평가하기 위한 프레임워크입니다. 멀티 턴 시나리오를 통해 규칙 검사, 워크스페이스 차이 분석, 멀티 저지 LLM 합의 방식을 사용하여 에이전트의 동작을 검증합니다.

핵심 포인트

Claude Code, Cursor, Copilot 등 다양한 코딩 에이전트를 대상으로 하는 멀티 턴 시나리오 평가 지원
규칙 검사, 워크스페이스 차이(diff), 멀티 저지 LLM 합의를 통한 다각도 검증 체계 제공
pass^k 분산 측정을 통해 평가 결과의 신뢰성 확보
Git 워크트리 및 Docker 샌드박스를 지원하여 격리된 환경에서의 테스트 가능

Repository: jfrog/agent-belt
Language: Python
Stars: 11
Forks: 0
Topics: agents, ai, ai-agents, benchmark, claude-code, cli, codex, coding-agents, cursor, evaluation-framework, gemini-cli, github-copilot, goose, jfrog, llm, llm-evaluation, opencode, testing

Description:
AI 코딩 에이전트 (AI coding agents)를 위한 재현 가능한 평가 (Reproducible evaluation). Claude Code, Codex, Copilot, Cursor, Gemini CLI, Goose, OpenCode 또는 사용자가 연결하는 임의의 커스텀 에이전트 (custom agent)를 대상으로 하는 멀티 턴 시나리오 (Multi-turn scenarios); 규칙 검사 (rule checks), 워크스페이스 차이 (workspace diffs), 멀티 저지 LLM 합의 (multi-judge LLM consensus)를 통해 동작을 검증합니다. 여러 시행에 걸친 pass^k 분산 (pass^k variance)을 통해 신뢰성을 고정합니다. Git 워크트리 (Git worktrees) 및 선택 사항인 Docker 샌드박스 (Docker sandbox)를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

jfrog/agent-belt

요약

핵심 포인트

댓글