AI 에이전트가 모든 것에 대한 루트 권한을 갖는 것에 지쳐서 XRisk를 만들었습니다

요약

AI 에이전트의 자율적 행동으로 인한 위험을 방지하기 위해 설계된 오픈 소스 안전 엔진 XRisk를 소개합니다. LLM 대신 결정론적인 정책 엔진을 사용하여 에이전트의 행동을 허용, 확인, 차단 단계로 제어합니다.

핵심 포인트

AI 에이전트와 현실 세계 사이의 결정 레이어 역할 수행
LLM 기반의 모호한 점수 대신 결정론적 정책 엔진 사용
프롬프트 인젝션, 민감 데이터 유출, 무한 루프 등 위험 탐지
코드형 정책(Policy-as-code) 및 서킷 브레이커 기능 제공

모두가 AI 에이전트(AI agents)를 만들고 있습니다.

하지만 AI 에이전트와 재앙적인 결정 사이에서 중재 역할을 하는 것을 만드는 사람은 거의 없습니다.

그것이 제가 XRisk를 만든 이유입니다.

XRisk는 AI 에이전트와 현실 세계 사이에서 결정 레이어 (decision layer) 역할을 하는 오픈 소스 자율 안전 엔진 (open-source autonomous safety engine)입니다.

에이전트가 행동을 맹목적으로 실행하는 대신, XRisk에게 묻습니다:

"내가 정말 이걸 해야 할까?"

XRisk는 세 가지 결정론적 (deterministic) 결정 중 하나로 응답합니다:

✅ 허용 (Allow)
⚠️ 확인 (Confirm)
❌ 차단 (Block)

이 프로젝트를 시작한 이유

점점 더 자율적인 AI 시스템을 실험하면서, 저는 반복해서 동일한 패턴을 발견했습니다.

대부분의 프로젝트는 에이전트의 능력을 향상시키는 데 집중했습니다.

하지만 거의 아무도 이렇게 묻지 않았습니다:

"에이전트가 틀렸을 때는 어떻게 될까?"

몇 가지 예를 들어보겠습니다.

에이전트가 실수로 API 키를 유출함.
프롬프트 인젝션 (prompt injection)으로 인해 이전 지침을 무시하도록 설득됨.
모델이 셸 명령 (shell command)을 실행하기로 결정함.
자율 워크플로 (autonomous workflow)가 무한 루프에 빠져 비용이 많이 드는 API를 계속 호출함.
배포 봇 (deployment bot)이 인간의 승인 없이 코드를 푸시함.

대부분의 에이전트 프레임워크 (agent frameworks)는 모델이 올바르게 행동한다고 가정합니다.

현실은 그렇지 않습니다.

저는 의도와 실행 사이에 위치하는 결정론적인 무언가를 원했습니다.

또 다른 모델이 아니라.

또 다른 프롬프트가 아니라.

실제 정책 엔진 (policy engine) 말입니다.

XRisk가 하는 일

XRisk는 제안된 모든 행동이 실행되기 전에 이를 평가합니다.

여러 안전 신호 (safety signals)를 결합하여 설명 가능한 단일 결정으로 만듭니다.

XRisk가 확인하는 항목 중 일부는 다음과 같습니다:

계층적 우선순위를 가진 코드형 정책 (Policy-as-code)
프롬프트 인젝션 (Prompt injection) 탐지
민감한 데이터 및 비밀 정보 (secret) 탐지
기능 토큰 (Capability token) 검증
네트워크 송출 (Network egress) 제한
자율 루프를 위한 서킷 브레이커 (Circuit breakers)
변조 방지 감사 로그 (Tamper-evident audit logs)
공급망 검증 (Supply-chain verification)
정책 충돌 탐지
결정론적 포렌식 재생 (Deterministic forensic replay)

신비로운 "안전 점수: 67%" 대신, XRisk는 왜 그런 결정을 내렸는지 설명합니다.

예시

AI 어시스턴트가 다음과 같은 실행을 원한다고 가정해 봅시다:

{
"tool": "deploy",
"actor": "release-bot",
"prompt": "즉시 프로덕션에 배포하십시오."
}

그것을 배포 시스템으로 직접 보내는 대신...

XRisk가 이를 가로챕니다.

그리고 다음을 평가합니다:

정책상 승인이 필요한가?
행위자 (actor)가 배포 권한을 가지고 있는가?
목적지가 신뢰할 수 있는 곳인가?
권한 토큰 (capability tokens)이 유효한가?
이것이 프롬프트 인젝션 (prompt injection)과 유사한가?
이것이 위험한 실행 루프 (execution loop)의 일부인가?

그제야 XRisk는 다음 중 하나를 결정합니다:

허용 (Allow)
확인 (Confirm)
차단 (Block)

내가 강력하게 주장하는 한 가지 설계 결정

나는 안전 (safety) 결정을 내리기 위해 또 다른 LLM을 사용하는 것을 의도적으로 피했습니다.

LLM은 텍스트를 생성하는 데는 탁월합니다.

하지만 정책 집행 (policy enforcement)은 결정론적 (deterministic)이어야 합니다.

만약 어떤 동작이 차단된다면, 나는 그것이 정확히 왜 차단되었는지 알고 싶습니다.

모든 결정은 재현 가능 (reproducible)해야 합니다.

모든 감사 (audit)는 설명 가능 (explainable)해야 합니다.

모든 정책은 검사 가능 (inspectable)해야 합니다.

이것이 XRisk의 이면에 있는 철학입니다.

다음 단계

나는 현재 다음 사항들을 목표로 작업하고 있습니다:

위협 인텔리전스 상관관계 (Threat intelligence correlation)
제로 트러스트 워크로드 ID (Zero-trust workload identities)
자율적 격리 (Autonomous containment)
적대적 시뮬레이션 (Adversarial simulation)
다자간 승인 워크플로우 (Multi-party approval workflows)

장기적인 비전은 XRisk를 프레임워크에 관계없이 어떤 AI 에이전트 앞에도 위치할 수 있는 재사용 가능한 보안 계층 (security layer)으로 만드는 것입니다.

피드백을 기다립니다

이 프로젝트는 여전히 진화 중이며, AI 시스템을 구축하는 분들의 진심 어린 피드백을 환영합니다.

특히 관심 있는 질문들은 다음과 같습니다:

내가 놓치고 있는 공격 벡터 (attack vectors)는 무엇인가?
프로덕션 환경에서 어떤 정책을 사용하고 싶은가?
어떤 통합 (integrations)이 이 도구를 더 유용하게 만들 것인가?
안전 엔진 (safety engine)을 어떻게 다르게 설계하겠는가?

기여하고 싶다면 이슈 (issue)를 생성하거나, 개선 사항을 제안하거나, PR (Pull Request)을 제출해 주세요. 작은 문서 수정이라도 환영합니다.

읽어주셔서 감사합니다. XRisk가 AI 시스템을 단순히 더 유능하게 만드는 것을 넘어, 더 신뢰할 수 있게 만드는 데 도움이 되기를 바랍니다.

링크: https://github.com/Hootsworth/XRisk

AI 자동 생성 콘텐츠

원문 바로가기

AI 에이전트가 모든 것에 대한 루트 권한을 갖는 것에 지쳐서 XRisk를 만들었습니다

요약

핵심 포인트

댓글