보이지 않는 유출: 5가지 치명적인 AI 에이전트 실패 사례와 아무도 말하지 않는 56.8%의 진실

OpenAI, Claude, Gemini, DeepSeek에 걸친 20,206건의 실제 API 호출을 기반으로 — 문제가 발생했을 때 프로덕션 (Production) AI 에이전트가 실제로 어떻게 작동하는지 소개합니다.

23분 동안 살아있었던 14,000달러짜리 키

2026년 5월 21일, 하나의 Google API 키가 유출되었습니다. 소유자는 즉시 GCP 콘솔에서 해당 키를 삭제했습니다. Google의 대시보드는 "이 키는 더 이상 사용할 수 없습니다"라고 확인해 주었습니다.

하지만 실제로는 사용할 수 있었습니다.

그 후 23분 동안, 삭제된 해당 키는 Gemini API, BigQuery, 그리고 Maps 엔드포인트에 대한 요청 인증을 계속 수행했습니다. Google의 인프라는 자격 증명 취소 (Credential revocation)를 위해 결과적 일관성 (Eventual consistency)을 사용했습니다. 일부 서버는 몇 초 내에 키를 거부했지만, 다른 서버들은 거의 15분 동안이나 키를 계속 수락했습니다. 이 시간 동안 유출된 키를 보유한 공격자는 완전한 접근 권한을 가졌습니다.

Google의 대응은 어땠을까요? "수정하지 않음 (Won't fix)."

이것은 예외적인 사례가 아닙니다. 클라우드 인프라가 자격 증명 수명 주기 (Credential lifecycle)를 처리하는 방식의 구조적 특징입니다. 그리고 이는 우리가 20,206건의 실제 프로덕션 API 호출에서 발견한 420가지의 서로 다른 결함 유형 중 문서화된 5가지 치명적 실패 패턴 중 하나일 뿐입니다.

56.8%의 문제

우리는 정상 상태와 성능 저하 (Degraded) 상태 모두에서 4개의 주요 제공업체 — OpenAI, Anthropic Claude, Google Gemini, DeepSeek — 를 대상으로 20,206건의 API 호출을 실행했습니다. 결과는 다음과 같습니다:

상태	성공률
정상 작동 (Normal operation)	99.3%
...

문제가 발생했을 때 — 그리고 프로덕션 환경에서는 항상 문제가 발생합니다 — 76%의 경우, 에이전트는 단순히 실패합니다. 폴백 (Fallback)도 없습니다. 우아한 성능 저하 (Graceful degradation)도 없습니다. 복구도 없습니다. 요청은 조용히 소멸하며, 다운스트림 (Downstream) 시스템은 오래된 데이터로 계속 진행하거나 충돌(Crash)합니다.

이것은 모델의 품질에 관한 문제가 아닙니다. 모델과 현실 세계 사이의 보이지 않는 계층, 즉 요청을 전달하는 봉투 (Envelope), 응답을 처리하는 프로토콜 (Protocol), 그리고 출력이 실행하기에 안전한지 확인하는 검증 (Verification)에 관한 문제입니다.

이를 입증하는 다섯 가지 치명적 실패

1. 존재하지 않았던 샌드박스 (Claude Code SOCKS5 Null Byte Bypass)

CVE-2026-39861 — 5.5개월 동안 Claude Code의 네트워크 샌드박스 (Sandbox)는 널 바이트 주입 (Null Byte Injection)을 통해 우회될 수 있었습니다. JavaScript 허용 목록 (Allowlist)은 attacker.com\x00.google.com을 확인하고 이를 승인했습니다 (뒤따르는 .google.com이 일치했기 때문). 하지만 하위 C 라이브러리의 getaddrinfo 함수는 널 바이트에서 문자열을 잘라내어 attacker.com을 직접 해석 (Resolve)했습니다.

영향 (Impact): 이 5.5개월의 기간 동안 와일드카드 허용 목록을 사용하여 Claude Code를 사용한 모든 개발자는 자격 증명 유출 (Credential Exfiltration)의 잠재적 경로에 노출되었습니다. 샌드박스는 보안 경계 (Security Boundary)로 취급되었으나, 그것은 단지 보여주기식 (Theater)에 불과했습니다.

교훈: 보안 메커니즘의 공개가 곧 해당 메커니즘의 신뢰성을 의미하지는 않습니다. 독립적인 검증 (Independent Verification) 없이는, 당신은 벤더의 주장을 믿는 것이지 실제 동작을 믿는 것이 아닙니다.

2. 클릭 한 번으로 얻는 전체 셸 액세스 (Claude Code Deeplink RCE)

CVE-2026-39862 — 모든 Claude Code 설치 버전(v2.1.118 및 이전 버전)에서 악성 claude-cli://open 링크를 클릭하는 것만으로 사용자의 상호작용 없이 임의의 셸 명령 (Shell Command) 실행이 가능했습니다. 딥링크 핸들러 (Deeplink Handler)가 startsWith를 사용하여 전체 CLI 인자 배열 (Argument Array)을 스캔하면서, 공격자가 셸 명령을 실행하는 SessionStart 훅 (Hook)이 포함된 --settings=/tmp/evil.json을 주입할 수 있게 허용했습니다.

만약 repo 파라미터가 신뢰할 수 있는 저장소(예: anthropics/claude-code)를 가리키고 있다면, 신뢰 대화 상자 (Trust Dialog)가 완전히 우회되었습니다.

영향 (Impact): Anthropic의 공식 저장소를 신뢰했던 모든 개발자 — 사실상 모든 Claude Code 사용자 — 는 브라우저, Slack 메시지, 또는 이메일에 포함된 링크를 통해 원격 코드 실행 (Remote Code Execution, RCE) 공격에 취약했습니다.

3. 사용자가 다른 사용자의 데이터를 보고 있음 (Claude Cross-Tenant Leakage)

2026년 6월 5일, Claude는 3시간 19분 동안 전 세계적인 서비스 중단을 겪었습니다. 복구 단계 동안 Claude의 분산 추론 인프라 (Distributed Reasoning Infrastructure)가 요청을 잘못 라우팅하였으며, 그 결과 일부 사용자가 다른 사용자의 세션 응답 (Session Responses)을 받는 상황이 발생했습니다.

Anthropic의 조사 결과 데이터 유출(Data Breach)은 확인되지 않았으나, 분산 시스템(Distributed System)이 성능 저하 상태에서 "알려진 실패 모드 (Known Failure Modes)"를 가지고 있었음을 인정했습니다. 장애 안내 페이지에는 단순히 "높은 오류율 (Elevated Error Rates)"이라고만 기재되었습니다.

영향 (Impact): 멀티 테넌트(Multi-tenant) 시스템에서 발생할 수 있는 가장 심각한 실패인 데이터 격리(Data Isolation)의 붕괴가 발생했습니다. 그리고 이는 단순한 일상적 장애로 보고되었습니다.

4. 85% 공격 성공률 (에이전트 간접 프롬프트 주입 (Agent Indirect Prompt Injection))

78개의 체계적인 연구에 따르면, 코딩 에이전트(Coding Agents)는 85% 이상의 성공률을 보이는 간접 프롬프트 주입(Indirect Prompt Injection) 공격에 취약한 것으로 나타났습니다. 공격 벡터(Attack Vector)는 다음과 같습니다: PR(Pull Request) 제목, 이슈(Issue) 댓글, GitHub Actions 데이터 소스 또는 캘린더 초대장에 악성 지침을 삽입하는 방식입니다. 에이전트는 데이터와 지침을 구분할 수 없습니다.

Claude Code, Gemini CLI, GitHub Copilot 모두 이 벡터를 통해 침해된 사례가 있습니다. Claude Code에서 이를 증명한 연구자에 대한 Anthropic의 대응은 어떠했을까요? **100달러의 버그 바운티 (Bug Bounty)**와 공개적인 보안 권고(Security Advisory)의 부재였습니다.

영향 (Impact): 외부 데이터(코드 저장소, 이메일, 문서)를 읽는 모든 AI 에이전트는 잠재적으로 공격자가 제어하는 지침을 실행하게 됩니다. 이는 이론적인 문제가 아니라, 실제로 악용되고 있는 문제입니다.

5. 서브 에이전트의 무한 증식 (Claude 글로벌 장애, 6월 2일)

Claude Code의 서브 에이전트(Sub-agent) 시스템에는 서브 에이전트가 기하급수적으로 증식하게 만드는 버그가 있었습니다. 각 서브 에이전트가 더 많은 서브 에이전트를 생성하면서, 전체 플랫폼의 용량이 소진될 때까지 가속화된 속도로 할당량(Quota)을 소비했습니다.

그 결과: 모든 Claude 서비스(API, Web, Console, Code)에 영향을 미친 **35분간의 글로벌 장애 (Global Outage)**가 발생했습니다. Downdetector에는 230건 이상의 불만이 접수되었습니다. 이 사건은 Anthropic이 기업공개(IPO)를 신청한 지 단 하루 만에 발생했습니다.

영향 (Impact): 한 구성 요소의 단일 최적화 버그가 플랫폼 전체의 완전한 실패로 이어졌습니다. 회로 차단기(Circuit Breaker)도, 할당량 제한(Quota Cap)도, 우아한 성능 저하(Graceful Degradation)도 없었습니다.

패턴 (The Pattern)

이것들은 서로 관련 없는 다섯 가지 사건이 아닙니다. 이들은 공통된 구조를 공유하고 있습니다:

벤더는 안전 메커니즘이 존재한다고 주장함 (샌드박스 (sandbox), 자격 증명 취소 (credential revocation), 테넌트 격리 (tenant isolation), 콘텐츠 필터링 (content filtering), 할당량 관리 (quota management))
실제 환경 조건에서 메커니즘이 실패함 (인코딩 엣지 케이스 (encoding edge cases), 최종 일관성 (eventual consistency), 성능 저하 상태 (degraded states), 새로운 공격 벡터 (novel attack vectors), 연쇄 버그 (cascading bugs))
피해가 발생하기 전까지 실패가 보이지 않음 (5.5개월간의 샌드박스 우회, 23분간의 취소 지연, 테넌트 간 데이터 노출)
공개는 되었으나 신뢰성이 검증되지 않음 (CVE는 게시되었으나, 수정 사항이 실제로 작동하는지에 대한 독립적인 확인은 없음)

이것이 바로 우리가 **정직성 연극 (Honesty Theater)**이라 부르는 것입니다: 신뢰성이라는 실체 없이 투명성만 보여주는 모습 말입니다.

20,206번의 호출이 복구(Recovery)에 대해 말해주는 것

우리의 벤치마크 데이터는 프로덕션 에이전트(production agents)가 실패를 처리하는 방식에 대한 냉혹한 진실을 드러냅니다:

정상 조건: 99.3% 성공 — 아무런 문제가 없을 때 에이전트는 잘 작동합니다.
성능 저하 조건: 약 24% 성공 — 제공업체(provider)에 문제가 발생하면, 에이전트는 4번 중 3번 실패합니다.

99.3%와 24% 사이의 격차는 모델의 문제가 아닙니다. 그것은 **검증 격차 (verification gap)**입니다. 에이전트는 자신의 요청이 제대로 형성되었는지, 응답이 완전한지, 출력이 실행하기에 안전한지, 혹은 폴백 (fallback)을 트리거해야 하는지 알지 못합니다.

그들은 봉투(envelope)를 믿습니다. 응답을 믿습니다. 제공업체의 상태 페이지를 믿습니다.

그리고 위에서 살펴본 다섯 가지 사례가 보여주듯, 그 신뢰는 빈번하게 잘못된 곳을 향하고 있습니다.

검증 계층 (The Verification Layer)

4개의 주요 AI 제공업체 전반에 걸쳐 420개의 문서화된 결함 유형이 존재합니다. 이는 네트워크 실패, 인증 오류, 요청 형식 오류, 응답 손상, 보안 취약점, 컴플라이언스 위반, 그리고 제공업체의 불안정성에 이릅니다. 대부분은 공식 상태 페이지에 기록되어 있지 않습니다. 하지만 모두 재현 가능합니다.

문제는 귀하의 프로덕션 에이전트가 이러한 결함에 직면할지 여부가 아닙니다. 결함이 발생했을 때 귀하가 이를 알 수 있느냐 하는 것입니다.

우리는 신뢰할 수 있는 가드레일 (Guardrail) 구현이 무엇을 처리해야 하는지를 정의하는 오픈 소스 테스트 스위트 (Apache 2.0)인 Guardrail Conformance Benchmark를 구축했습니다. 이는 이론적인 위협 모델 (threat models)이 아니라, 20,206건의 실제 호출에서 관찰된 패턴을 기반으로 합니다.

만약 귀하가 프로덕션 환경에서 AI 에이전트를 운영하고 있다면, 가장 먼저 던져야 할 질문은 "어떤 모델이 가장 좋은가?"가 아닙니다. 바로 다음과 같습니다: "실패했을 때 어떤 일이 발생하며, 나는 그것을 어떻게 알 수 있는가?"

이 데이터에 대하여

이 분석은 Correctover 결함 분류 체계 (fault taxonomy) v29.0 (420가지 결함 유형)을 기반으로 하며, OpenAI, Anthropic, Google, DeepSeek에 걸친 20,206건의 실제 API 호출을 벤치마크했습니다. 적합성 벤치마크 (conformance benchmark)는 오픈 소스입니다. 기반이 되는 검증 엔진 (verification engine)은 독점 기술 (proprietary)입니다.

모든 CVE 참조, 장애 타임라인 및 제공업체의 응답은 공개 문서, 공식 보안 권고 (security advisories) 및 검증된 사고 보고서에서 가져왔습니다.

Correctover — Because failover switches. Correctover verifies.™

Guardrail Conformance Benchmark (Apache 2.0) | Prior Art: Honesty Theater

Insights

보이지 않는 유출: 5가지 치명적인 AI 에이전트 실패 사례와 아무도 말하지 않는 56.8%의 진실

요약

핵심 포인트

보이지 않는 유출: 5가지 치명적인 AI 에이전트 실패 사례와 아무도 말하지 않는 56.8%의 진실

23분 동안 살아있었던 14,000달러짜리 키

56.8%의 문제

이를 입증하는 다섯 가지 치명적 실패

1. 존재하지 않았던 샌드박스 (Claude Code SOCKS5 Null Byte Bypass)

2. 클릭 한 번으로 얻는 전체 셸 액세스 (Claude Code Deeplink RCE)

3. 사용자가 다른 사용자의 데이터를 보고 있음 (Claude Cross-Tenant Leakage)

4. 85% 공격 성공률 (에이전트 간접 프롬프트 주입 (Agent Indirect Prompt Injection))

5. 서브 에이전트의 무한 증식 (Claude 글로벌 장애, 6월 2일)

패턴 (The Pattern)

20,206번의 호출이 복구(Recovery)에 대해 말해주는 것

검증 계층 (The Verification Layer)

이 데이터에 대하여

댓글

구성 학습하기: Zero-Shot Composed Image Retrieval을 위한 프록시 태스크 설계의 재고

기존 캐시 정책이 실패할 때: 의미론적 검색 버퍼를 위한 학습 증강 교체 방식

NeuroCogMap: 대규모 언어 모델(LLM)의 인지적 조직 구조를 밝히다

LLM 아첨(Sycophancy) 현상 내 권위 계층 구조에 대한 기계론적 관점

구성 학습하기: Zero-Shot Composed Image Retrieval을 위한 프록시 태스크 설계의 재고

기존 캐시 정책이 실패할 때: 의미론적 검색 버퍼를 위한 학습 증강 교체 방식

NeuroCogMap: 대규모 언어 모델(LLM)의 인지적 조직 구조를 밝히다

LLM 아첨(Sycophancy) 현상 내 권위 계층 구조에 대한 기계론적 관점