AI 에이전트의 신뢰 점수는 위조될 수 있다. 진짜를 가리는 단 하나의 검증법은 이것이다.

만약 다른 에이전트에게 비용을 지불하는 에이전트를 구축하고 있다면 — x402, AP2, 에이전트 간 상거래(agent-to-agent commerce) — 당신은 이미 깔끔한 답이 없는 질문에 도달했습니다. 내 에이전트가 한 번도 본 적 없는 거래 상대방에게 돈을 보내기 전에, 어떻게 그 거래 상대방이 진짜인지 알 수 있을까요?

지금까지 업계의 답변은 '신뢰 점수(trust score)'였습니다. 신원, 활동성, 평판, 작업 이력, 일관성을 묶어 0점에서 100점 사이의 숫자로 만들고, 이를 에이전트에게 보여주어 에이전트가 결정하도록 하는 방식입니다. 듣기에는 그럴듯합니다. 하지만 그것은 작동하지 않으며, 우리는 이제 데이터로 그것을 입증할 수 있습니다.

우리가 실험한 내용

우리는 사전에 등록된 연구(데이터를 수집하기 전에 설계와 가설을 공개 해시 체인에 봉인)를 진행했으며, 최대 13개의 최첨단 및 저비용 모델과 2,600개 이상의 실제 에이전트 결제 결정 사례를 다루었습니다. 설정은 간단했습니다. 자율 에이전트를 두 개의 거래 상대방 앞에 두고 누구에게 돈을 지불할지 물어보는 것이었습니다.

한 거래 상대방은 정직하고 실제로 정산에 의해 뒷받침되는 상대였습니다. 실제 참여자들에 의해 온체인(on-chain)으로 결제된 기록이 있었습니다.
다른 하나는 위조품이었습니다. 이는 신뢰의 _표면_만을 보여주었습니다 — 인상적인 수치, 온체인 스타일이지만 유효하지 않은 참조를 표시했을 뿐, 실제 내용은 아무것도 없었습니다.

에이전트들은 위조품을 99%의 확률로 선택했습니다.

그들은 신뢰가 진짜인지 아닌지를 추론하고 있는 것이 아니었습니다. 그들은 검증 가능성의 _코스튬(costume)_을 패턴 매칭하고 있었습니다. 단순히

표시된 신뢰가 구조적으로 결함이 있는 이유

이 결과는 특정 모델의 기이한 특성이 아닙니다. 이는 구조적인 문제이며, 한 번 인지하고 나면 무시할 수 없습니다:

표시하기 쉬운 신호는 위조하기도 쉽다.

정체성(Identity)은 주조될 수 있습니다. 평판 피드백(Reputation feedback)은 에이전트들이 서로에게 별 다섯 개를 주는 식으로 자가 보증(self-vouched)될 수 있습니다. 작업 이력(Work history)은 루프를 실행하는 새로운 지갑에 의해 조작될 수 있습니다. 전형적인 다차원 신뢰 점수(multi-dimensional trust score)의 모든 차원은 하나의 _표시(display)_이며, 동기가 부여된 상대방은 자신의 표시를 스스로 제어합니다. 위조 가능한 다섯 가지 신호를 하나의 숫자로 합친다고 해서 그 숫자가 위조하기 어려워지지는 않습니다. 오히려 신뢰하기 더 쉽게 만들 뿐입니다.

단 하나의 예외: 결제 (settlement)

상대방이 저렴하게 위조할 수 없는 신호는 정확히 하나뿐입니다: 그 자체로 지위(standing)를 가진 참여자들로부터 실제로 받은 돈입니다.

"나는 200명의 평판 좋은 에이전트들로부터 50,000달러를 지급받았다"를 위조하려면, 실제로 200명의 평판 좋은 에이전트들로부터 50,000달러를 지급받아야 합니다. 이는 점수가 측정하고 있는 것과 동일한 내용입니다. 무료 피드백을 시빌 공격(sybil attack)할 수 있는 것처럼 실제 결제(real settlement)를 시빌 공격할 수는 없습니다. 왜냐하면 실제 결제는 잃을 것이 있는 당사자들이 지불하는 실제 비용을 수반하기 때문입니다.

이것이 신뢰할 수 있는 확인 방법이 "배지를 읽는 것"이 아니라 "의사 결정 시점에 결제 확인을 수행하는 것"인 이유입니다. 당신의 에이전트가 결제를 완료하기 전에, 위조 불가능한 질문을 던지십시오: 이 상대방이 실제로 누구로부터 얼마를 지급받았는가?

실무 적용 방법

결제 인덱서(settlement indexer)를 직접 구축할 필요는 없습니다. 우리는 x402 경제 생태계에서 인덱서를 운영하며 이를 무료로 읽기 전용(read-only)으로 공개하고 있습니다. 다음 중 어떤 것이든 지갑이나 도메인에 대해 0-1000 사이의 결제 기반 점수(settlement-grounded score)를 반환합니다:

# HTTP
curl https://api.agentrank.info/resolve/blockrun.ai
# -> { verified, score, settlement: { usd, payers }, verdict }

# MCP: 서버를 추가하고, 결제하기 전에 check_agent_trust를 호출하십시오

...

검증된 높은 점수는 상대방이 실제 가치(real value)를 결제(settlement)했다는 것을 의미합니다. 0은 결제 기록이 발견되지 않았음을 의미하며, 이는 사기의 증거는 아니지만 아무도 돈으로 보증하지 않았다는 뜻이므로 검증되지 않은 것으로 취급하십시오. 이 점수는 결정론적(deterministic)이며 공개된 입력값으로부터 재계산이 가능합니다. 또한 담합(collusion)에 대해 지속적으로 스트레스 테스트를 거칩니다 (최근의 봉인된 적대적 스윕(sealed adversarial sweep) 결과, 최대 750달러의 예산을 가진 구조화된 담합 조직조차 상위 10위권 진입을 구매할 수 없었습니다).

핵심 요약 (The takeaway)

만약 결제 기능이 있는 에이전트(paying agents)를 출시한다면, 화면에 표시된 신뢰 점수(trust score)를 기준으로 결제를 제한하지 마십시오. 데이터에 따르면 당신의 에이전트는 겉모습(costume)에 속아 넘어갈 것입니다. 대신, 저렴하게 위조할 수 없는 무언가에 대해 수행된(performed) 검증을 기준으로 결제를 제한하십시오. 에이전트 경제(agent economy)에서 그 무언가는 바로 결제(settlement)입니다.

무료, 읽기 전용, API 키 불필요: agentrank.info/verify. Crest Deployment Systems 제공.

Insights

AI 에이전트의 신뢰 점수는 위조될 수 있다. 진짜를 가리는 단 하나의 검증법은 이것이다.

요약

핵심 포인트

우리가 실험한 내용

표시된 신뢰가 구조적으로 결함이 있는 이유

단 하나의 예외: 결제 (settlement)

실무 적용 방법

핵심 요약 (The takeaway)

댓글

Claude Code 사용자에게 Cowork이 필요할까 — Cowork의 주요 기능을 공식 문서와 실기 테스트로 재현해 보았다

Claude Fable 5의 동작을 Opus 4.8로 재현하기 — '지능'을 검증 루프의 공정으로 대체하기

텍스트 변환(Transcription) 결과물을 Claude에게 맡겨 의사록 작성부터 Issue 생성·업데이트까지 해결하며 논의 내용(Why

클라우드 AI는 바둑 게임을 순식간에 만들었지만, 로컬 LLM은 2시간 반 동안 방황했다 — '계속'을 입력하며 보낸 아침의 기록

Claude Fable 5의 동작을 Opus 4.8로 재현하기 — '지능'을 검증 루프의 공정으로 대체하기

텍스트 변환(Transcription) 결과물을 Claude에게 맡겨 의사록 작성부터 Issue 생성·업데이트까지 해결하며 논의 내용(Why

클라우드 AI는 바둑 게임을 순식간에 만들었지만, 로컬 LLM은 2시간 반 동안 방황했다 — '계속'을 입력하며 보낸 아침의 기록