171개의 AI 에이전트를 신뢰도로 순위 매겨보았습니다 — 안전성과 투명성에 대해 발견한 점

요약

171개의 AI 에이전트 프레임워크를 대상으로 활동성, 채택률, 투명성, 안전성, 신원을 분석하여 신뢰도를 평가한 HVTracker 프로젝트를 소개합니다. GitHub 스타 수와 실제 운영 환경에서의 보안 및 신뢰성 사이의 간극을 지적하며, 투명성과 보안 위생의 중요성을 강조합니다.

핵심 포인트

GitHub 스타 수가 높다고 해서 반드시 운영 환경에 안전한 것은 아님
투명성(라이선스, 서명된 커밋 등)이 에이전트 프레임워크에서 가장 취약한 요소임
HVTracker는 5가지 차원과 증거 등급(Grade A-D)을 통해 신뢰도를 정량화함
규모가 작은 프로젝트가 최신 보안 도구 도입으로 더 높은 안전성을 보이기도 함

AI 에이전트(AI agents)는 어디에나 있습니다. LangChain, AutoGPT, CrewAI, Dify, n8n — 현재 수백 개의 오픈 소스 에이전트 프레임워크(open-source agent frameworks)가 존재하며, 그 목록은 계속 늘어나고 있습니다.

하지만 아무도 묻지 않는 질문이 있습니다: 과연 어떤 것을 실제로 신뢰할 수 있을까요?

저는 지난 한 달 동안 활동성(Activity), 채택률(Adoption), 투명성(Transparency), 안전성(Safety), 신원(Identity)이라는 다섯 가지 차원에 걸쳐 171개의 AI 에이전트를 점수화하는 공개 신뢰 레지스트리(open trust registry)인 HVTracker를 구축하는 데 시간을 보냈습니다.

이 포스트에서는 제가 발견한 내용을 공유합니다.

문제점

대부분의 개발자는 GitHub 스타(stars) 수와 분위기에 따라 AI 에이전트 프레임워크를 선택합니다. 스타는 인기를 측정할 뿐, 신뢰성을 측정하지 않습니다. 10만 개의 스타를 가진 저장소(repo)라도 다음과 같은 상태일 수 있습니다:

보안 정책(security policy) 없음
서명된 커밋(signed commits) 없음
공급망 출처(supply chain provenance) 없음
OSSF 스코어카드(OSSF Scorecard) 낙제
라이선스(license) 자체가 없음

스타는 무엇이 유행인지를 알려줍니다. 하지만 무엇이 운영 환경(production)에 배포하기 안전한지는 알려주지 않습니다.

HVTrust 점수 산정 방식

모든 에이전트는 다섯 가지 차원에 따라 0~100점 사이의 종합 신뢰 점수를 받습니다:

차원	최대 점수	측정 항목
활동성 (Activity)	25	최근 커밋, 릴리스 신선도
...

또한 각 에이전트는 우리가 검증할 수 있었던 독립적인 신호 유형(signal types)의 개수에 따라 증거 등급(Evidence Grade) (A부터 D까지)을 받습니다:

Grade A: 4개 이상의 신호 유형 (GitHub + 다운로드 + 스코어카드 + 출처)
Grade B: 3개 신호 유형
Grade C: 2개 신호 유형
Grade D: GitHub만 해당

놀라운 발견들

높은 스타 수가 높은 신뢰를 의미하지는 않습니다. 10만 개 이상의 스타를 보유한 여러 에이전트가 기본적인 보안 위생(security hygiene)이 부족하여 신뢰 점수 100점 만점에 50점 미만을 기록했습니다.

투명성(Transparency)은 전반적으로 가장 취약한 차원이었습니다. 대부분의 에이전트가 라이선스와 README를 갖추고 있지만, OSSF 스코어카드(OSSF Scorecards), 서명된 커밋(signed commits), 또는 출처 증명(provenance attestations)을 갖춘 경우는 매우 드뭅니다.

규모가 작은 프로젝트가 때때로 안전성에서 더 높은 점수를 받습니다. Sigstore, SLSA 출처(SLSA provenance), 또는 GitHub의 아티팩트 증명(artifact attestations)을 조기에 도입한 프로젝트들은 이러한 도구들이 존재하기 전에 성장한 더 큰 프로젝트들보다 더 나은 성과를 보이는 경향이 있습니다.

단 몇 개의 에이전트만이 Grade A 수준의 증거를 달성했습니다. 대부분은 Grade B 또는 C에 머물러 있으며, 이는 독립적인 소스로부터 해당 에이전트의 신뢰 신호 (trust signals)를 부분적으로만 검증할 수 있음을 의미합니다.

우리가 추적하는 신호들

HVTracker는 4시간마다 여러 독립적인 소스로부터 데이터를 수집합니다:

GitHub API — 스타 (stars), 포크 (forks), 커밋 (commits), 라이선스 (license), 마지막 푸시 날짜 (last push date)
npm / PyPI — 주간 다운로드 수 (weekly downloads), 출처 증명 (provenance attestations)
OSSF Scorecard (deps.dev를 통해) — 보안 관행 점수 (security practices score)
GitHub Search API — 지문 기반 (fingerprint-based) 공개 활동
Algolia HN API — 지난 30일간의 Hacker News 언급 횟수

모든 신호는 시차를 둔 GitHub Actions 크론 잡 (cron jobs)을 통해 자동으로 갱신됩니다. 하루에 6개 배치 (batches)로 나뉘어 실행되며, 전체 사이클은 24시간이 소요됩니다.

완전한 오픈 소스

전체 데이터셋은 CC BY 4.0 라이선스입니다: hvtracker.net/data/latest.json
점수 산정 방법론 (scoring methodology)은 문서화되어 있습니다: hvtracker.net/methodology
소스 코드는 GitHub에 공개되어 있습니다: github.com/YugantM/hvtracker
모든 에이전트는 모든 원시 신호 (raw signals)를 포함하는 개별 프로필 페이지를 가집니다.

로그인도, 추적도, 백엔드도 없습니다. GitHub Pages를 기반으로 하는 정적 사이트 (static site)입니다.

임베디드 가능한 신뢰 배지 (Embeddable Trust Badges)

LangChain의 배지 예시: HVTrust: 85.0 Grade: B

실제 배지 확인: hvtracker.net/badge/langchain.svg

README에 다음과 같이 삽입할 수 있습니다:

[![HVTrust](https://hvtracker.net/badge/YOUR-AGENT.svg)](https://hvtracker.net/agents/YOUR-AGENT)

향후 계획

현재 다음 기능들을 작업 중입니다:

에이전트 비교 도구 (2~3개의 에이전트를 나란히 비교)
7일간의 신뢰 트렌드 지표 (7-day trust trend indicators)
GitHub Issues를 통한 에이전트 제출 기능
평판 이벤트 이력 (reputation event history, 시간에 따른 신뢰 변화 추적)

직접 체험해 보세요

레지스트리 둘러보기: hvtracker.net

여러분이 좋아하는 에이전트를 찾아보세요. 신뢰 점수를 확인해 보세요. 놀라운 결과를 보게 될지도 모릅니다.

점수 산정 방법론, 특히 각 차원의 가중치 (dimension weights)가 적절하다고 느껴지는지에 대해 피드백을 주시면 감사하겠습니다. 댓글을 남기거나 GitHub에 이슈 (issue)를 생성해 주세요.

오픈 소스 프로젝트로서 단독으로 제작되었습니다. 이 프로젝트가 유용하다고 느끼신다면, GitHub에서 Star를 눌러주시면 큰 힘이 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기