swarm-test v0.3.1 — 대화형 HTML 리포트 및 개발자 경험(Developer Experience) 전면 개편

요약

멀티 에이전트 신뢰성 테스트 도구인 swarm-test v0.3.1이 출시되었습니다. CLI 출력 모드 세분화와 대화형 HTML 리포트 기능을 통해 에이전트 시스템의 상태를 시각적으로 분석하고 디버깅할 수 있는 환경을 제공합니다.

핵심 포인트

사용자 환경에 맞춘 세 가지 CLI 출력 모드(Default, Quiet, Verbose) 지원
D3 기반의 에이전트 상호작용 그래프 및 히트맵을 포함한 대화형 HTML 리포트 도입
단순 문제 진술을 넘어 구체적인 해결책(Actionable fixes)을 함께 제시
에이전트의 중복성(Redundancy) 및 단일 장애점(SPOF)을 시각적으로 식별 가능

오픈 소스 멀티 에이전트 신뢰성 테스트 도구인 swarm-test의 주요 업데이트 소식입니다.

CLI 출력의 문제점: 대부분의 도구는 모든 정보를 쏟아냅니다. 테스트를 실행하면 200줄의 결과가 나오고, 정작 중요한 내용을 찾기 위해 위로 스크롤해야 합니다. CI 스크립트에는 한 줄이면 충분하고, 디버깅(Debugging)을 위해서는 모든 정보가 필요하며, 일상적인 사용을 위해서는 그 중간 단계의 무언가가 필요합니다. 대부분의 도구는 이 중 한 가지 모드만을 선택합니다. 그것은 잘못된 방식입니다.

swarm-test v0.3.1은 세 가지 출력 모드를 추가합니다:

기본(Default) — 첫 번째 줄에 판정 결과가 표시됩니다: "Swarm Score: 0/100 — CRITICAL (5 critical, 1 high findings)". 그 뒤에는 실행 가능한 해결책(Actionable fixes)이 포함된 CRITICAL 및 HIGH 결과만 표시됩니다. 낮은 심각도의 결과는 메모와 함께 숨겨집니다.

조용히(--quiet) — 단 한 줄만 출력됩니다: "Swarm Score: 10/100 — CRITICAL (2 critical findings)". 나머지는 종료 코드(Exit code)가 처리합니다. 0은 통과, 1은 임계값 초과를 의미합니다. CI 스크립트에 완벽합니다.

상세히(--verbose) — 모든 것을 보여줍니다. LOW 및 INFO를 포함한 모든 결과, 전체 그래프 메트릭(Metrics), 모든 에이전트 상태 세부 정보, 완전한 중복성 테이블(Redundancy table)이 포함됩니다.

이제 모든 결과는 단순한 문제 진술이 아니라 구체적인 해결책으로 끝납니다:

CRITICAL | cascade_failure
재앙적인 연쇄 실패 가능성: Hub 실패가 5개의 에이전트로 연쇄 작용함
→ 'Hub'를 위한 폴백 에이전트(Fallback agent)를 추가하거나 해당 책임을 여러 에이전트에 분산시키십시오.

가장 큰 추가 사항은 대화형 HTML 리포트입니다. 다음 명령어를 실행하세요: swarm-test run crew.py --output-format html --output-path report.html --open

브라우저에서 다음과 같은 전체 대시보드가 열립니다:

Swarm Score 게이지 — 인증 수준(EXCELLENT, GOOD, NEEDS IMPROVEMENT, AT RISK, CRITICAL)과 함께 0-100을 보여주는 커다란 원형 게이지입니다. 한눈에 시스템의 상태를 파악할 수 있습니다.

에이전트 상호작용 그래프(Agent Interaction Graph) — D3 force-directed graph입니다. 노드(Node)는 에이전트를 나타내며, 연결 수에 따라 크기가 결정되고 상태(초록/노랑/빨강)에 따라 색상이 지정됩니다. 단일 장애점(SPOF) 에이전트는 맥동하는 빨간색 테두리가 표시됩니다. 드래그하여 위치를 재조정하고, 스크롤하여 확대/축소하며, 클릭하여 엣지(Edge)를 강조할 수 있습니다.

상호작용 히트맵(Interaction Heatmap) — 어떤 에이전트 쌍이 가장 많이 통신하는지 보여주는 NxN 그리드입니다. 색이 어두울수록 상호작용이 많음을 의미합니다. 빨간색 오버레이는 해당 엣지(Edge)에 발견된 문제(Findings)를 나타냅니다. 위험한 연결이 어디인지 즉시 확인할 수 있습니다.

Health Scores Table (상태 점수 테이블) — 색상이 적용된 진행률 표시줄(progress bars)과 함께 정렬이 가능합니다. 각 에이전트(Agent)는 점수, 상태, 그리고 "100% blast radius, SPOF, high cascade depth"와 같은 구체적인 위험 세부 정보를 표시합니다.

Redundancy Table (중복성 테이블) — 교체 가능성 점수가 IRREPLACEABLE (0-20)에서 FULLY REDUNDANT (81-100)까지 표시됩니다. SPOF(단일 장애점)는 빨간색으로 강조되며, 안전한 에이전트는 녹색 진행률 표시줄로 표시됩니다.

Findings Section (발견 사항 섹션) — 필터 버튼(ALL / CRITICAL / HIGH / MEDIUM / LOW)이 제공됩니다. 각 발견 사항은 접기/펴기(collapsible)가 가능하며, 클릭하면 전체 설명, 영향을 받은 에이전트, 그리고 해결 단계(remediation steps)를 확장하여 볼 수 있습니다.

그 외 모든 기능은 그대로 작동합니다. 동일한 8가지 신뢰성 테스트(cascade failure, context leakage, intent drift, collusion detection, blast radius, timeout resilience, sensitive data detection, contract violation)가 유지됩니다. 동일한 3가지 프레임워크 어댑터(CrewAI, LangGraph, AutoGen)를 지원합니다. 자동 검색(auto-discovery) 기능이 포함된 동일한 YAML 설정(config)을 사용합니다. CI/CD 게이팅을 위한 동일한 GitHub Action을 제공합니다. 동일한 JSON 및 Markdown 내보내기(exports)를 지원합니다. 삭제된 기능은 없으며, 모든 것이 개선되었습니다.

설치: pip install swarm-test --upgrade

다음 단계: 플러그인 시스템 — 간단한 BasePlugin 인터페이스를 사용하여 자신만의 커스텀 신뢰성 테스트를 작성할 수 있습니다.

GitHub: github.com/surajkumar811/swarm-test

AI 자동 생성 콘텐츠

원문 바로가기

swarm-test v0.3.1 — 대화형 HTML 리포트 및 개발자 경험(Developer Experience) 전면 개편

요약

핵심 포인트

댓글