모든 에이전트 패스포트 계층은 스스로의 시험을 채점하고 있다
요약
AI 에이전트의 보안을 위해 도구 호출 전 결정론적 정책 엔진이 권한을 검사하는 '사전 동작 권한 부여(pre-action authorization)' 계층의 중요성을 다룹니다. 모델의 추론이 아닌 프레임워크 계층에서 보안을 강제하여 프롬프트 인젝션 공격을 방어하는 아키텍처를 설명합니다.
핵심 포인트
- 사전 동작 권한 부여는 모델이 아닌 프레임워크 계층에서 실행되어 보안을 강화함
- 에이전트 패스포트 시스템(APS)은 Ed25519 신원과 3중 서명 체인을 활용함
- OAP 정책 적용 시 사회 공학적 공격 성공률이 74.6%에서 0%로 감소함
- 유효한 암호학적 서명이 반드시 유효한 권한 주장을 의미하지는 않음에 유의해야 함
에이전트 스택(agent stack)에서 새로운 계층이 통합되고 있으며, 이제 이름도 생겼습니다: 사전 동작 권한 부여(pre-action authorization). 아이디어는 명확합니다. 에이전트가 도구 호출(tool call)을 실행하기 전에, 결정론적 정책 엔진(deterministic policy engine)이 이를 가로채어 선언적 규칙(declarative rules)에 따라 검사하고 감사 기록(audit record)에 서명합니다. 모델은 제안하고, 게이트웨이(gateway)는 결정합니다.
이 패턴은 실재하며 실제로 배포되고 있습니다.
Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents (arXiv 2603.20953)에서, Uchi Uchibeke는 이를 정확하게 명시합니다: 권한 부여는 "모델의 추론 계층(reasoning layer)이 아닌 프레임워크 계층(framework layer)에서 실행됩니다. 프롬프트 인젝션(Prompt injection)으로 이를 무력화할 수 없습니다." 동일한 입력, 동일한 결정, 평가 경로에 모델은 개입하지 않습니다. 에이전트 패스포트 시스템(Agent Passport System, APS)은 프로덕션 형태에서도 동일한 구조를 제공합니다 — Ed25519 신원(identities), 범위를 좁힐 수만 있는 제한된 위임(scoped delegation), 그리고 3중 서명 동작 체인(three-signature action chain)입니다.
아키텍처는 올바릅니다. 프로토콜 계층은 안전을 강제할 수 없으므로, 그 상위의 결정론적 게이트웨이가 반드시 강제해야 합니다. NSA의 6월 MCP 권고안도 방어 측면에서 동일한 내용을 말합니다: 기본 거부(deny-by-default), 모든 것에 범위 설정(scope everything), 모든 메시지에 서명(sign every message).
따라서 설계는 수렴하고 있습니다. 하지만 수렴하지 않는 부분이 여기 있습니다.
자기 증명(Self-attestation)은 저항이 아니다
이 계층의 모든 구현체는 그것을 만든 사람들에 의해 테스트됩니다.
OAP는 놀라운 수치를 보고합니다: 879번의 시도 중 순수 모델(bare model)에 대해서는 사회 공학(social engineering)이 74.6%의 확률로 성공했지만, 제한적인 OAP 정책에 대해서는 0%였습니다. 저자의 말을 빌려 제한 사항 섹션을 읽어보면, 공격자들은 "프로토콜 수준의 공격보다는 사회 공학 쪽으로 스스로 선택하고 치우치는 경향이 있으며, 결과가 APT급 적대자에게 일반화되지 않을 수 있습니다." 이는 스펙 작성자가 스스로 선택한 집단을 대상으로 진행한, 스스로 운영하는 버그 바운티(bounty)와 같습니다. 이것은 OAP에 대한 비판이 아니라, 이 분야의 대부분이 하지 않는 정직한 공개입니다.
APS는 한 걸음 더 나아가 자체 README에서 말하지 않아도 될 사실을 명시합니다: "유효한 서명(signature)이 유효한 주장(claim)을 의미하지는 않는다." 이는 암호학적으로 완벽하더라도 거부되어야 하는 영수증(receipts)들을 나열합니다 — 잘못된 주장, 만료된 위임(delegation), 취소된 위임 등입니다. 팀은 이 격차를 명확히 이해하고 있습니다. 그렇다면 이들의 적합성 스위트(conformance suite)는 어떨까요? 바이트 수준(Byte-level)입니다. 이는 두 구현체가 동일하게 정규화(canonicalize)되는지 — 즉 상호운용성(interoperability) — 를 검증하며, "동적 테스트 실행(dynamic test execution)을 대체하지 않는다"라고 솔직하게 명시합니다.
따라서 이 계층에는 두 가지 종류의 테스트가 존재하지만, 둘 다 가장 중요한 것은 아닙니다:
- 채점 대상이 되는 구현체와 결부된, 자체 실행되는 적대적 평가(adversarial evals).
- 두 시스템이 서로 _동의(agree)_한다는 것을 증명할 뿐, 어느 하나가 _옳다(right)_는 것을 증명하지는 않는 바이트 수준의 적합성(conformance).
적합성은 합의를 증명합니다. 저항성(resistance)을 증명하지는 않습니다.
결여된 규율
이 계층에 없는 것은 중립적인 적대자(neutral adversary)입니다. 즉, 누가 만들었는지와 상관없이 모든 사전 행동 권한 부여 게이트웨이(pre-action-authorization gateway)를 대상으로 프로토콜 수준의 우회(bypass), 범위 경계 에스컬레이션(scope-boundary escalation), 위임 체인 남용(delegation-chain abuse), 그리고 재전송 공격(replay)을 시도하는 제3자 하네스(third-party harness)가 없습니다. 스스로 증명하는 정책이 아니라, 저항성을 점수화하는 존재 말입니다.
이러한 패턴은 보안의 다른 모든 분야에 이미 존재합니다. TLS 구현체는 보안의 증거로서 자체적인 상호운용성 테스트를 발표할 수 없습니다. 이들은 독립적인 테스트 스위트와 외부 공격에 직면합니다. 결제 단말기는 자신들이 통제하지 않는 PCI 테스트 랩의 검사를 받습니다. 신뢰 계층(trust layer)의 전체 전제는 그 신뢰가 _외부적으로 검증 가능(externally verifiable)_해야 한다는 것입니다. 스스로 채점하는 여권은 이름표에 불과합니다.
에이전트 신원(agent-identity) 계층은 지금 이 순간에도 빠르게 구축되고 있습니다. NIST의 AI 에이전트 표준 이니셔티브(AI Agent Standards Initiative, 2026년 2월)는 신원을 세 가지 핵심 축 중 하나로 설정했습니다. OWASP의 에이전트 애플리케이션 Top 10(2026년)은 ASI04 — 에이전트 공급망(agentic supply chain) — 및 ASI07 — 안전하지 않은 에이전트 간 통신(insecure inter-agent communication) — 을 추가했습니다. MCP는 RFC 8707 리소스 범위 토큰(resource-scoped tokens)을 사용하는 OAuth 2.1로 이동했습니다. 이들 각각은 벤더 자체의 테스트 결과가 첨부된 상태로 출시될 제어 표면(control surface)들입니다.
독립적인 적대자(adversary)를 위한 자리가 비어 있습니다. 누군가 그 자리를 채울 수 없어서가 아닙니다. 게이트웨이를 구축하는 사람들은 당연하게도 게이트웨이를 만드는 사람이지, 그것을 공격하는 존재를 만드는 사람들이 아니기 때문입니다.
적대적 적합성 하네스(adversarial conformance harness)의 모습
저는 아래에 기술된 프로토콜을 위해 이 과정의 공격자 측면을 구축해 왔습니다. Agent Security Harness는 MCP 및 에이전트 엔드포인트에 대해 474개의 적대적 테스트를 실행합니다. 이 하네스는 승격된 OAuth 스코프(scopes)를 위조하여 거부되는지 확인하고(AUTH-003), 핸드셰이크(handshake) 과정에 명령 실행 카나리(command-execution canaries)를 심으며(MCP-017), 권한이 축소되어야 함에도 축소되지 않은 권한을 찾기 위해 위임 체인(delegation chains)을 탐색합니다.
마지막 카테고리는 바로 패스포트 계층(passport layer)에 필요하지만 아직 중립적인 버전이 존재하지 않는 영역입니다. 즉, 서명된 위임(signed delegation)을 가져와 그 범위를 벗어나 사용을 시도하고, 게이트웨이가 이를 잘 방어하는지 점수를 매기는 것입니다. APS의 자체 모델은 권한이 "각 전송 지점마다 감소할 수만 있다"고 명시합니다. 좋습니다. 이제 게이트웨이를 작성하지 않은 적대자를 상대로 이를 증명하십시오.
솔직하게 말씀드리면, 저는 오늘 프로토콜 계층을 테스트하고 있는 것이지 패스포트 계층을 테스트하고 있는 것이 아닙니다. 패스포트 계층의 적대적 적합성(adversarial conformance)은 저를 포함해 그 누구에 의해서도 아직 구축되지 않았습니다. 제가 이 이름을 명명하는 이유는 설계가 충분히 수렴되었기에, 이제 그 공백이 전체 그림에서 가장 중요한 요소가 되었기 때문입니다.
패스포트는 에이전트가 누구인지를 증명합니다. 하지만 그 신원(identity)이 당신에게 불리하게 이용될 수 없음을 증명하지는 않습니다. 첫 번째는 서명(signature)입니다. 두 번째는 오직 결연한 적대자만이 인증할 수 있는 것인데, 현재 이 계층에서 방 안에 있는 유일한 적대자는 바로 자물쇠를 만든 사람뿐입니다.
출처: arXiv 2603.20953; github.com/aeoess/agent-passport-system; NIST AI Agent Standards Initiative (Feb 2026); OWASP Top 10 for Agentic Applications 2026; MCP Authorization spec (RFC 8707).
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기