agent-sh/agentsys
요약
AgentSys는 AI 에이전트가 소프트웨어 개발의 복잡한 과정을 오케스트레이션하는 모듈형 런타임 및 시스템입니다. 이는 태스크 선택, 브랜치 관리, 코드 리뷰, 배포 등 코딩 외적인 모든 단계를 구조화된 파이프라인과 게이트 단계(gated phases)를 통해 처리합니다. 시스템은 각 에이전트가 단일 책임과 정의된 입출력을 가지도록 설계되었으며, 세션 간 상태 유지 기능을 제공하여 작업 중단 시에도 진행 상황을 보존할 수 있습니다. 또한, 구조화된 프롬프트와 풍부한 컨텍스트를 통해 LLM의 성능을 극대화하며, 특정 모델(예: Claude Sonnet)과 결합했을 때 높은 효율성과 구체성을 입증했습니다.
핵심 포인트
- AgentSys는 AI 에이전트가 소프트웨어 개발 전반의 복잡한 워크플로우를 오케스트레이션하는 런타임 환경을 제공합니다.
- 구조화된 파이프라인과 게이트 단계(phase gates)를 통해 에이전트가 체계적으로 작업을 수행하도록 강제하고, 세션 간 상태를 유지합니다.
- 시스템은 단순 코드 생성 이상의 'AI 작업' (판단, 검토 등)을 처리하며, 이를 위해 정적 분석 및 LLM 호출을 결합합니다.
- 풍부한 리포지토리 인텔리전스(repo-intel)와 구조화된 프롬프트가 모델의 성능 향상에 결정적인 역할을 하며, 비용 효율성 측면에서도 우수함을 보여줍니다.
- CLI + LSP 린터인 agnix를 통해 다양한 AI 도구(Claude Code, Copilot 등)를 위한 실시간 IDE 검증 및 자동 수정 기능을 제공합니다.
AI 에이전트를 위한 모듈형 런타임 (runtime) 및 오케스트레이션 (orchestration) 시스템.
20개의 플러그인 · 49개의 에이전트 · 41개의 스킬 (모든 리포지토리 합계) · 3만 줄의 라이브러리 코드 · 3,507개의 테스트 · 5개의 플랫폼
플러그인은 agent-sh 조직(org) 산하의 독립된 리포지토리로 분산되어 있으며, agentsys는 마켓플레이스(marketplace) 및 설치기(installer) 역할을 합니다.
Commands · Installation · Website · Discussions
Claude Code · Codex CLI · OpenCode · Cursor · Kiro를 위해 구축되었습니다.
새로운 스킬, 에이전트, 통합 기능이 지속적으로 출시됩니다. 실시간 업데이트를 위해 팔로우하세요.
AI 모델은 코드를 작성할 수 있습니다. 그것은 더 이상 어려운 부분이 아닙니다. 어려운 부분은 그 주변의 모든 것들—태스크 선택 (task selection), 브랜치 관리 (branch management), 코드 리뷰 (code review), 아티팩트 정리 (artifact cleanup), CI, PR 코멘트, 배포(deployment)입니다. AgentSys는 이 모든 것을 처리하기 위해 에이전트를 오케스트레이션 (orchestrates)하는 런타임 (runtime)입니다—구조화된 파이프라인 (pipelines), 게이트 단계 (gated phases), 특화된 에이전트 (specialized agents), 그리고 세션 경계를 넘어 유지되는 지속적인 상태 (persistent state)를 제공합니다.
커스텀 스킬, 에이전트, 훅 (hooks), 또는 MCP 도구를 구축하시나요? agnix는 설정 오류가 조용히 실패하기 전에 잡아내는 CLI + LSP 린터 (linter)입니다—실시간 IDE 검증, 자동 제안, 자동 수정 기능을 제공하며, Claude Code, Codex, OpenCode, Cursor, Kiro, Copilot, Gemini CLI, Cline, Windsurf, Roo Code, Amp 등을 위한 399개의 규칙을 보유하고 있습니다.
에이전트 오케스트레이션 시스템—20개의 플러그인, 49개의 에이전트 (39개의 파일 기반 에이전트 + audit-project 내 10개의 역할 기반 전문가), 그리고 소프트웨어 개발을 위한 구조화된 파이프라인으로 구성되는 41개의 스킬을 제공합니다. 각 플러그인은 agent-sh 조직 (org) 산하의 자체 독립 리포지토리에 존재합니다. agentsys는 이들을 하나로 묶어주는 마켓플레이스 (marketplace)이자 설치기 (installer)입니다.
각 에이전트는 단일 책임, 특정 모델 할당, 그리고 정의된 입출력 (inputs/outputs)을 가집니다. 파이프라인 (pipelines)은 단계별 게이트 (phase gates)를 강제하여 에이전트가 단계를 건너뛸 수 없도록 합니다. 상태 (state)는 세션 간에 유지되므로 작업이 중단되어도 보존됩니다.
이 시스템은 Claude Code, OpenCode, Codex CLI, Cursor, Kiro에서 실행됩니다. 마켓플레이스 또는 npm 설치기를 통해 설치하면, 플러그인들이 각자의 리포지토리로부터 자동으로 가져와집니다.
코드는 코드 작업을 합니다. AI는 AI 작업을 합니다.
탐지 (Detection): 정규 표현식 (regex), AST 분석, 정적 분석 (static analysis) - 빠르고 결정론적이며, 토큰 낭비가 없음
판단 (Judgment): 합성을 위한 LLM 호출, 계획 (planning), 검토 (review) - 추론이 중요한 단계
결과 (Result): 멀티 에이전트 (multi-agent) 방식 대비 /drift-detect 수행 시 토큰 77% 절감, 전 과정에 걸쳐 확실성 등급이 부여된 결과 제공
모든 발견 사항이 동일하지 않기 때문에 확실성 수준 (Certainty levels)이 존재합니다:
| 수준 | 의미 | 조치 |
|---|---|---|
| HIGH | 확실한 문제임 | 자동 수정 (auto-fix) 가능 |
| ... | ||
| 이 결과는 1,000개 이상의 리포지토리(repositories)를 테스트한 결과에서 도출되었습니다. |
구조화된 프롬프트 (Structured prompts)와 풍부한 컨텍스트 (enriched context)는 모델의 등급 (model tier)보다 출력 품질에 더 큰 영향을 미칩니다. 2026년 3월, 실제 작업(/can-i-help 및 /onboard)에 대해 glide-mq와 비교하여 벤치마크를 수행하였으며, claude -p --output-format json으로 측정되었습니다. 모델: Claude Opus 4 및 Claude Sonnet 4.
동일한 작업, 동일한 리포지토리, 동일한 프롬프트 ("I want to improve docs") 사용 시:
| 설정 | 비용 | 출력 토큰 | 결과 품질 |
|---|---|---|---|
| Opus, agentsys 미사용 | $1.10 | 2,841 | 일반적인 권장 사항, 프로젝트 특화 컨텍스트 없음 |
| Opus + agentsys | $1.95 | 5,879 | 노력 추정치, 컨벤션 인지, 변경 사항 (breaking change) 탐지가 포함된 구체적인 권장 사항 |
| Sonnet + agentsys | $0.66 | 6,084 | Opus + agentsys와 대등함: 구체적이고 실행 가능하며 프로젝트를 인지함 |
Sonnet + agentsys는 순수 Opus보다 40% 낮은 비용으로 더 높은 구체성을 가진 더 많은 출력을 생성했습니다.
파이프라인이 구조화된 프롬프트, 풍부한 리포지토리 인텔리전스 (repo-intel) 데이터, 단계별 게이트 워크플로 (phase-gated workflows)를 제공하면, 모델이 수행해야 하는 과도한 작업이 줄어듭니다. Sonnet과 Opus 사이의 격차는 다음과 같이 좁혀집니다:
| 플러그인 | Opus | Sonnet | 절감액 |
|---|---|---|---|
| /onboard | $1.10 | $0.30 | 73% |
| /can-i-help | $1.34 | $0.23 | 83% |
두 모델 모두 동일한 결과 품질에 도달했습니다. 단지 Sonnet이 그 결과에 도달하는 비용이 더 적을 뿐입니다. 구조화된 파이프라인은 별도로 더 비싼 모델을 사용해야만 얻을 수 있었을 이득의 대부분을 포착합니다.
| 시나리오 | 모델 비용 | 품질 |
|---|---|---|
| agentsys 미사용 시 | 좋은 결과를 위해 Opus 필요 | 모델 성능에 따라 다름 |
| agentsys 사용 시 | Sonnet으로 충분 | 파이프라인이 구조를 처리하고, 모델은 판단을 처리함 |
투자의 중심이 모델 지출에서 파이프라인 설계로 이동합니다. 더 나은 프롬프트 (Prompt), 더 풍부한 컨텍스트 (Context), 강제된 단계 (Enforced phases) — 이러한 요소들은 모델 업그레이드만으로는 얻을 수 없는 방식으로 복합적인 효과를 냅니다.
| 명령어 | 기능 |
|---|---|
/next-task | 작업 워크플로우: 탐색 (Discovery), 구현 (Implementation), PR, 머지 (Merge) |
/prepare-delivery | 배포 전 품질 게이트 (Quality gates): deslop, 리뷰 (Review), 검증 (Validation), 문서 동기화 (Docs sync) |
/gate-and-ship | 품질 게이트 실행 후 배포 (/prepare-delivery + /ship) |
/agnix | 에이전트 설정 린트 (Lint) (399개 규칙) |
/ship | PR 생성, CI 모니터링, 머지 (Merge) |
/deslop | AI 슬롭 (Slop) 패턴 제거 |
/perf | 베이스라인 (Baselines) 및 프로파일링 (Profiling)을 통한 성능 조사 |
/drift-detect | 계획 (Plan) 대 구현 (Implementation) 비교 |
/audit-project | 멀티 에이전트 (Multi-agent) 반복 코드 리뷰 |
/enhance | 플러그인 (Plugin), 에이전트 (Agent), 프롬프트 (Prompt) 분석기 |
/repo-intel | 통합 정적 분석 (Static analysis) - git 히스토리, AST 심볼, 프로젝트 메타데이터 |
/sync-docs | 코드 변경 사항과 문서 동기화 |
/learn | 주제 연구, 학습 가이드 생성 |
/consult | 도구 간 AI 컨설팅 |
/debate | AI 도구 간의 구조화된 토론 |
/web-ctl | AI 에이전트를 위한 브라우저 자동화 |
/release | 에코시스템 감지를 포함한 버전별 릴리스 |
/skillers | 워크플로우 패턴 학습 및 자동화 |
/onboard | 신규 참여자를 위한 코드베이스 오리엔테이션 |
/can-i-help | 기여자의 기술을 프로젝트 요구 사항에 매칭 |
각 명령어는 독립적으로 작동합니다. 이들이 모여 엔드 투 엔드 (End-to-end) 파이프라인을 구성합니다.
플러그인 전반에 걸쳐 41개의 기술이 포함되어 있습니다:
| 카테고리 (Category) | 기술 (Skills) |
|---|---|
| 워크플로 (Workflow) | discover-tasks , prepare-delivery , check-test-coverage , orchestrate-review , validate-delivery |
| 메시지 큐 (Message Queues) | glide-mq-migrate-bee , glide-mq-migrate-bullmq , glide-mq |
| 개선 (Enhancement) | enhance-agent-prompts , enhance-claude-memory , enhance-cross-file , enhance-docs , enhance-hooks , enhance-orchestrator , enhance-plugins , enhance-prompts , enhance-skills |
| 성능 (Performance) | baseline , benchmark , code-paths , investigation-logger , perf-analyzer , profile , theory-gatherer , theory-tester |
| 정리 (Cleanup) | deslop , sync-docs |
| 코드 리뷰 (Code Review) | audit-project |
| AI 협업 (AI Collaboration) | consult , debate , learn , recommend , skillers-compact |
| 온보딩 (Onboarding) | can-i-help , onboard |
| 웹 (Web) | web-auth , web-browse |
| 릴리스 (Release) | release |
| 분석 (Analysis) | drift-analysis , repo-intel |
| 린팅 (Linting) | agnix |
외부 기술 플러그인 (External skill plugins) (독립된 저장소, 별도 설치):
| 카테고리 (Category) | 기술 (Skills) | 플러그인 (Plugin) |
|---|---|---|
| 메시지 큐 (Message Queues) | glide-mq , glide-mq-migrate-bullmq , glide-mq-migrate-bee | agent-sh/glidemq |
기술 (Skills)은 재사용 가능한 구현 단위입니다. 에이전트 (Agents)는 기술을 호출하며, 명령 (Commands)은 에이전트를 오케스트레이션 (Orchestrate)합니다. 플러그인을 설치하면 해당 세션의 모든 에이전트에서 그 기술을 사용할 수 있습니다.
| 섹션 (Section) | 내용 (What's there) |
|---|---|
| 접근 방식 (The Approach) | 왜 이런 방식으로 구축되었는가 |
| ... |
/ 명령 없이 기술을 제공하는 플러그인입니다. agentsys와 함께 설치되며, 기술은 모든 에이전트에서 사용할 수 있게 됩니다.
Valkey/Redis 기반의 고성능 Node.js 큐인 glide-mq를 사용하여 메시지 큐, 백그라운드 작업, 그리고 워크플로 오케스트레이션 (Workflow orchestration)을 구축하세요.
| 기술 (Skill) | 기능 |
|---|---|
glide-mq | 신규 큐 개발 (Greenfield queue development) - 큐, 워커, 순서 지정 (ordering), 속도 제한 (rate limiting), 플로우, 브로드캐스트, 단계별 작업 (step jobs) |
glide-mq-migrate-bullmq | BullMQ에서 glide-mq로 마이그레이션 - API 매핑, 중대한 변경 사항 (breaking changes), 기능 비교 |
glide-mq-migrate-bee | Bee-Queue에서 glide-mq로 마이그레이션 - API 매핑, 패턴 변환 |
주요 기능: 키별 순서 지정 (per-key ordering), 그룹 동시성 (group concurrency), 런타임 그룹 속도 제한 (job.rateLimitGroup()), 토큰 버킷 (token bucket), DAG 워크플로, 브로드캐스트 발행/구독 (pub/sub), 단계별 작업 (step jobs), 중복 제거 (deduplication), 서버리스 프로듀서 (serverless producers).
기술 플러그인 (Skill plugin) → | glide-mq 문서 (docs) → | npm →
목적: 작업 완료부터 프로덕션 배포까지의 완전한 자동화.
실행 시 발생하는 과정:
정책 선택 (Policy Selection) - 작업 소스 (GitHub Issues, GitHub Projects, GitLab, 로컬 파일), 우선순위 필터, 중단 지점 선택
작업 발견 (Task Discovery) - 우선순위가 높은 상위 5개 작업을 표시하며, 그중 하나를 선택
워크트리 설정 (Worktree Setup) - 격리된 브랜치 및 작업 디렉토리 생성
탐색 (Exploration) - 컨텍스트 이해를 위한 심층 코드베이스 분석
계획 (Planning) - 구현 접근 방식 설계
사용자 승인 (User Approval) - 사용자가 계획을 검토하고 승인 (마지막 인간의 개입)
구현 (Implementation) - 계획 실행
사전 검토 (Pre-Review) - deslop-agent 및 prepare-delivery:test-coverage-checker 실행
검토 루프 (Review Loop) - 깨끗한 상태가 될 때까지 멀티 에이전트 검토 반복
배포 검증 (Delivery Validation) - 테스트 통과, 빌드 통과, 요구사항 충족 여부 확인
문서 업데이트 (Docs Update) - CHANGELOG 및 관련 문서 업데이트
배포 (Ship) - PR 생성, CI 모니터링, 코멘트 대응, 머지 (merge)
Phase 9에서는 orchestrate-review 기술을 사용하여 병렬 검토자(코드 품질, 보안, 성능, 테스트 커버리지)와 조건부 전문가를 생성합니다.
참여 에이전트:
| 에이전트 (Agent) | 모델 (Model) | 역할 (Role) |
|---|---|---|
| task-discoverer | sonnet | 소스에서 작업을 찾아 순위를 매김 |
| ... |
교차 플러그인 에이전트 (Cross-plugin agent):
| 에이전트 (Agent) | 플러그인 (Plugin) | 역할 (Role) |
|---|---|---|
| deslop-agent | deslop | 검토 전 AI 흔적(artifacts) 제거 |
| sync-docs-agent | sync-docs | 문서 업데이트 |
사용법 (Usage):
/next-task # 새로운 워크플로 (workflow) 시작
/next-task --resume # 중단된 워크플로 (workflow) 재개
/next-task --status # 현재 상태 확인
...
목적 (Purpose): 배포 (shipping) 없이 모든 사전 배포 품질 게이트 (pre-ship quality gates)를 실행합니다. 구현을 수동으로 완료했거나 /next-task 외부에서 실행할 때 사용하십시오.
실행 항목 (순서대로):
사전 리뷰 게이트 (Pre-review gates) (병렬 실행) - deslop + /simplify + prepare-delivery-test-coverage-checker
설정 린트 (Config lint) (조건부) - agnix + agent/skill/plugin 파일에 변경 사항이 있을 때 /enhance 실행
리뷰 루프 (Review loop) - 4명의 핵심 리뷰어 (core reviewers) + 조건부 전문가 (specialists), 최대 5회 반복
배포 검증 (Delivery validation) - 테스트 통과, 빌드 통과, 요구사항 충족
문서 동기화 (Docs sync) - sync-docs 에이전트 (agent)가 문서를 업데이트
/prepare-delivery # 모든 품질 게이트 (quality gates) 실행
/prepare-delivery --skip-review # 리뷰 루프 (review loop) 건너뛰기
/prepare-delivery --skip-docs # 문서 동기화 (docs sync) 건너뛰기
...
PR을 생성하거나 푸시 (push)하지 않습니다. 이후에 /ship 또는 /gate-and-ship을 사용하십시오.
목적 (Purpose): 품질 게이트 (quality gates)를 실행한 후 한 번의 명령으로 배포 (ship)합니다. /prepare-delivery를 실행한 다음 /ship을 연결합니다.
/gate-and-ship # 전체: 품질 게이트 (quality gates) + 배포 (ship)
/gate-and-ship --skip-review # 리뷰를 건너뛰고 배포 (ship) 수행
/gate-and-ship --base=develop # 특정 베이스 브랜치 (base branch)를 대상으로 실행
조합성 (Composability):
/gate-and-ship = /prepare-delivery + /ship
각 구성 요소는 독립적으로 실행됩니다. 배포 (ship) 여부를 결정하기 전에 리뷰를 하려면 /prepare-delivery만 단독으로 사용하고, 이미 검증되었다면 /ship만 단독으로 사용하십시오.
목적 (Purpose): 에이전트 (agent) 설정이 워크플로 (workflow)를 망가뜨리기 전에 린트 (lint)를 수행합니다. AI 에이전트 (AI agent) 설정을 위한 최초의 전용 린터 (linter)입니다.
agnix는 검증 엔진 (validation engine)을 제공하는 독립적인 오픈 소스 (open-source) 프로젝트입니다. 이 플러그인 (plugin)은 이를 귀하의 워크플로 (workflow)에 통합합니다.
해결하는 문제 (The problem it solves):
에이전트 설정 (Agent configurations)은 코드입니다. 이는 동작 (behavior), 보안 (security), 그리고 신뢰성 (reliability)에 영향을 미칩니다. 하지만 애플리케이션 코드와 달리, 에이전트 설정에는 린팅 (linting) 기능이 없습니다. 에이전트가 실패할 때 비로소 SKILL.md 형식이 잘못되었음을 알게 됩니다. 훅 (hooks)이 악용될 때 보안 문제가 있음을 발견하게 됩니다. AI가 예상치 못한 방식으로 동작할 때 CLAUDE.md에 충돌하는 규칙이 있음을 깨닫게 됩니다.
agnix는 이러한 문제들이 실제 문제를 일으키기 전에 포착합니다.
검증 항목 (What it validates):
| 카테고리 | 검증 내용 |
|---|---|
| 구조 (Structure) | 필수 필드, 유효한 YAML/JSON, 적절한 프론트매터 (frontmatter) |
| 보안 (Security) | 프롬프트 인젝션 (Prompt injection) 벡터, 과도하게 허용된 도구 (overpermissive tools), 노출된 비밀 값 (exposed secrets) |
| 일관성 (Consistency) | 충돌하는 규칙, 중복된 정의, 깨진 참조 (broken references) |
| 베스트 프랙티스 (Best Practices) | 도구 제한, 모델 선택, 트리거 문구 (trigger phrase) 품질 |
| 크로스 플랫폼 (Cross-Platform) | Claude Code, Codex, OpenCode, Cursor, Kiro, Copilot, Gemini CLI, Cline, Windsurf, Roo Code, Amp 등을 포함한 플랫폼 간 호환성 |
399개의 검증 규칙 (126개는 자동 수정 가능)은 다음으로부터 도출되었습니다:
- 공식 도구 사양 (Claude Code, Codex CLI, OpenCode, Cursor, Kiro, GitHub Copilot, Gemini CLI, Cline, Windsurf, Roo Code, Amp 등)
- 에이전트 신뢰성 및 프롬프트 인젝션에 관한 연구 논문
- 500개 이상의 리포지토리 (repositories)를 통한 실제 테스트
- 커뮤니티에서 보고된 이슈 및 엣지 케이스 (edge cases)
지원 파일 (Supported files):
| 파일 유형 | 예시 |
|---|---|
| 기술 (Skills) | SKILL.md , */SKILL.md |
| ... |
CI/CD 통합 (CI/CD Integration):
agnix는 GitHub Code Scanning을 위한 SARIF 형식을 출력합니다. 귀하의 워크플로 (workflow)에 다음을 추가하세요:
- name: Lint agent configs
run: agnix --format sarif > results.sarif
- uses: github/codeql-action/upload-sarif@v3
...
사용법 (Usage):
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Claude Ecosystem의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기