지금 Claude가 다운되었나요? 실시간 장애 분석 및 해결 방법

Originally published at twarx.com - read the full interactive version there.

최종 업데이트: 2026년 6월 22일

지금 Claude가 다운되었나요? 일요일에 발생한 장애 동안에는 그렇습니다 — 그리고 단순히 '다운'된 것만이 아닙니다. 이는 Anthropic이 급증하는 수요 하에서 추론 (Inference)을 확장하는 방식의 구조적 취약성을 드러내고 있으며, Downdetector에 쏟아지는 2,000건 이상의 동시 에러 보고는 우연이 아닙니다. 여러분이 보고 있는 '응답 불완전 (response incomplete)' 메시지는 Anthropic이 아직 공개적으로 설명하지 않은 연쇄적 장애 아키텍처 (cascading failure architecture)의 빙산의 일각입니다.

이 글은 Asbury Park Press에서 처음 보도된 일요일 장애에 대한 실시간 분석입니다. Claude Chat과 Claude Code 모두 오후 8시 직후부터 수천 명의 사용자에게 실패를 일으켰습니다. 무엇이, 왜 고장 났는지, 그리고 어떻게 대처해야 하는지 다룹니다.

이 글을 다 읽을 때쯤이면, 장애를 확인하는 방법, 모든 Claude API 에러 코드를 해독하는 방법, 즉각적인 해결책을 적용하는 방법, 그리고 다음 수요 급증에도 견딜 수 있는 Claude 탄력적 워크플로우 (Claude-resilient workflow)를 구축하는 방법을 알게 될 것입니다.

Claude AI interface showing a response incomplete error message during the Sunday outage

속보 보도에서 기록된, 일요일 Claude 장애 동안 사용자들이 겪은 '응답 불완전 (response incomplete)' 에러 패턴. 출처: Asbury Park Press / Gannett 2026

속보: Claude 장애 보고 급증 — 현재 우리가 알고 있는 것

**지금 Claude가 다운되었나요?**에 대한 짧은 답변은 다음과 같습니다. 일요일 장애 동안에는 '예', 그리고 상당히 큰 규모로 발생했습니다. Asbury Park Press에 따르면, Claude는 Downdetector에서 2,000건 이상의 보고된 문제를 기록했으며, 사용자들이 이 장애가 자신들의 문제인지 Anthropic의 문제인지 확인하기 위해 서두르면서 Google에서 'response incomplete claude'라는 검색어가 트렌드에 올랐습니다. Anthropic의 자체 상태 페이지 (status page)가 권위 있는 참조원이지만, 우리가 보여드리듯 실제 상황보다 늦게 반영됩니다.

2,000+
일요일 장애 피크 동안의 Downdetector 보고 건수
[Asbury Park Press, 2026](https://www.app.com/story/news/2026/06/21/is-claude-down-response-incomplete-claude-claude-api-error/90638546007/)
...

보고된 정확한 타임라인: 토요일 및 일요일 장애 날짜

Asbury Park Press는 일요일 '오후 8시 직후부터' 문제가 시작되었음을 확인했으며, 불만 사항은 Claude Chat 및 Claude Code에 집중된 반면, 다른 사용자들은 '앱에 전혀 접속할 수 없었습니다'. 보고서에는 '수정을 위한 시간표는 없지만, 종종 이러한 문제들은 빠르게 해결된다'고 언급되었습니다. 배포(deployment) 도중에 이런 말을 듣는다면 전혀 위로가 되지 않을 것입니다.

타임스탬프보다 중요한 것은 패턴입니다. 일요일의 2,000건 이상의 대규모 급증에 앞서 발생한 토요일의 파동은 _불완전한 완화 (incomplete mitigation)_와 일치합니다. 즉, 초기 결함이 부분적으로 패치되었지만, 근본적인 용량 제한(capacity constraint)이 다음 수요 피크 상황에서 다시 나타나는 것입니다. 저는 여러 AI 제공업체에서 정확히 이와 같은 '2단계 파동'의 특징이 반복되는 것을 목격해 왔습니다. 이것은 불운이 아닙니다. 근본 원인(root cause)을 해결하는 대신 증상만을 패치하고 있다는 증상입니다.

Anthropic 공식 상태 페이지: 표시되는 내용 vs. 사용자가 경험하는 내용

Anthropic의 공식 정보 출처는 status.anthropic.com이며, 이곳에서 API, Claude.ai, 그리고 Console을 각각 별개의 구성 요소로 추적합니다. 실시간 장애 발생 시 반복되는 불만 사항은 다음과 같습니다. 상태 페이지는 역사적으로 사용자가 보고하는 장애 상황보다 상당히 뒤처져 나타납니다. 사용자의 세션에 '응답 미완성 (response incomplete)' 오류가 나타나는 시점과 상태 페이지에 노란색 배너가 표시되는 시점 사이에는 15분에서 45분 정도의 격차가 발생할 수 있습니다. 로그가 이미 말해주고 있는 내용을 배너가 알려줄 때까지 기다리지 마세요. 항상 공식 Anthropic API documentation의 오류 코드와 실시간으로 보고 있는 현상을 교차 확인해야 합니다.

Downdetector 데이터: 2,000건 이상의 보고 및 지리적 확산

Downdetector의 2,000건 이상이라는 수치는 사용자가 제출한 보고를 집계한 것이지, Anthropic 인프라를 직접 읽어온 데이터가 아닙니다. 이 차이점은 매우 중요합니다. 해당 수치의 급증은 인지된 장애를 확인해 주지만, 근본 원인(root cause)에 대해서는 아무것도 알려주지 않습니다. 오후 8시 이후 시간대에 집중된 보고의 지리적 확산 양상은 지역적 네트워크 장애보다는 트래픽 급증(surge)으로 인한 이벤트임을 시사합니다. 문제는 다르며, 해결 방법도 다릅니다.

2,000건의 동시 오류 보고가 2,000대의 서버가 고장 났음을 의미하지는 않습니다. 이는 보통 하나의 포화된 추론 클러스터 (inference cluster)가 너무 크게 고장 나서 수천 개의 세션이 동시에 이를 감지했음을 의미합니다.

'응답 미완성 (Response Incomplete)'의 실제 의미 — 기술적 정의

'응답 미완성 (response incomplete)'이라는 문구는 사용자에게 보이는 증상이지, 근본 원인이 아닙니다. 이를 이해하려면 우선 Claude가 텍스트를 생성하는 방식 자체를 이해해야 합니다.

Claude의 추론 파이프라인 (Inference Pipeline) 작동 방식 개요

Claude의 API는 스트리밍 토큰 생성 (streaming token generation) 방식을 사용합니다. 프롬프트를 보내면 모델이 전체 답변을 모두 계산한 뒤 전달하는 것이 아니라, 정지 시퀀스 (stop sequence)에 도달하거나 최대 토큰 (max_tokens) 제한에 걸릴 때까지 토큰을 점진적으로 방출합니다. '불완전한 응답 (incomplete response)'이란 토큰 스트림이 정지 시퀀스에 도달하기 전에 종료되었음을 의미합니다. 즉, 모델이 사고하는 도중에 연결이 끊긴 것입니다. 모델이 구축하려던 것이 무엇이었든 — 리팩토링된 함수, 요약, 또는 다단계 계획이었든 — 그것은 그냥 사라져 버립니다. 스트리밍의 메커니즘은 Anthropic 스트리밍 가이드에 문서화되어 있습니다.

'응답 불완전 (Response Incomplete)' 에러가 실제로 발생하는 방식

  1

    **클라이언트 요청 (Claude.ai 또는 API)**

사용자가 프롬프트를 제출합니다. 요청은 max_tokens 예산과 컨텍스트 윈도우 (context window) 할당량이 설정된 사용 가능한 추론 클러스터 (inference cluster)로 라우팅됩니다.

↓

  2
...

Anthropic의 라우팅 레이어 (routing layer)가 요청을 노드 (node)에 할당합니다. 트래픽 급증 시 노드가 포화 상태가 되면, 초과된 요청은 대기열에 쌓이거나 HTTP 529 (Overloaded) 에러와 함께 거부됩니다.

↓

  3
...

토큰이 스트리밍되어 돌아옵니다. 만약 노드가 스트리밍 도중에 메모리 압박 (memory pressure)을 겪거나 타임아웃 (timeout)이 발생하면, 정지 시퀀스에 도달하기 전에 생성이 중단됩니다.

↓

  4
...

UI는 부분적인 출력 (소프트 절단, soft truncation)을 표시하거나 아무것도 표시하지 않습니다 (하드 실패, hard failure). 최종 사용자에게는 두 경우 모두 동일하게 보입니다.

이 시퀀스는 왜 '응답 불완전'이 별개의 에러 유형이 아니라, 노드 수준 포화의 하류 증상 (downstream symptom)인지를 보여줍니다.

API가 완전한 에러 코드 대신 'Response Incomplete'를 반환하는 이유

배후에서는 사용자에게 보여지는 메시지에 의해 두 가지 백엔드 코드가 가장 흔하게 가려집니다: HTTP 529 (Overloaded) 및 HTTP 500 (Internal Server Error). Anthropic API 에러 문서에 따르면, 529는 추론 계층 (inference layer)이 과부하로 인해 요청을 적극적으로 거부하고 있음을 나타내는 Anthropic 고유의 신호입니다. 스트리밍 (streaming) 문맥에서 이러한 거부는 생성이 부분적으로 시작된 _이후_에 발생할 수 있으며, 이로 인해 사용자는 답변의 절반만 받은 채 채팅 UI에서 깔끔한 에러 코드를 확인하지 못하게 됩니다. UI는 단지 파편화된 텍스트만 보여주며 사용자를 혼란에 빠뜨립니다.

소프트 절단 (Soft Truncation)과 하드 API 실패 (Hard API Failure)의 차이

**소프트 절단 (soft truncation)**은 부분적인 출력을 보존합니다. 예를 들어, 리팩토링 결과물의 처음 세 단락을 받은 뒤 멈추는 식입니다. 반면 **하드 실패 (hard failure)**는 토큰을 전혀 반환하지 않습니다. Claude.ai에서는 이 두 가지가 동일하게 나타나며, 바로 이 점 때문에 사용자는 재시도를 해야 할지, 프롬프트 (prompt)를 줄여야 할지, 아니면 그냥 기다려야 할지 판단할 수 없습니다. 개발자들에게 이 차이는 실제로 복구 가능합니다. API 응답의 stop_reason 필드를 확인하면 됩니다. 값이 max_tokens라면 할당된 예산(budget)에 도달한 것이고, stop_reason 없이 스트림이 끊겼다면 서버 측 실패를 의미합니다. 이 필드 하나만으로 무의미한 재시도를 크게 줄일 수 있습니다.

Medium의 Claude Code 사용자들은 여러 파일을 리팩토링하는 과정에서 작업 도중 세션이 실패하는 사례를 기록했습니다. 이는 에이전트 (agent)가 다단계 계획 (multi-step plan)에서 위치를 놓치면서 소프트 절단이 한 시간 분량의 컨텍스트 (context)를 파괴해 버리는 전형적인 사례입니다.

Diagram comparing soft truncation partial output versus hard API failure with zero tokens in Claude

소프트 절단 대 하드 실패: 둘 다 Claude.ai에서는 동일하게 표시되지만, 오직 API만이 이 둘을 구분할 수 있는 stop_reason 필드를 노출합니다.

불완전한 응답의 연쇄 반응: Claude 장애가 실제보다 더 광범위하게 느껴지는 이유

Coined Framework

불완전한 응답의 연쇄 반응 (The Incomplete Response Cascade) — 단 하나의 과부하된 Anthropic 추론 노드 (inference node)가 수천 개의 동시 세션에 걸쳐 점진적인 응답 절단 (response truncation)을 유발하여, 국지적인 API 결함이 최종 사용자에게는 전 세계적인 서비스 중단처럼 보이게 만드는 연쇄 반응

이는 인지된 장애 범위와 실제 장애 범위 사이의 격차를 정의합니다. 하나의 포화된 클러스터가 공유 인프라 상의 인접 세션들을 저하시키며, 모든 장애가 동일한 '응답 불완전 (response incomplete)' 메시지로 나타나기 때문에 사용자들은 전체 서비스가 중단된 것으로 인지하게 됩니다. 결함은 국지적이지만, 증상은 전역적입니다.

Anthropic의 추론 노드 아키텍처가 연쇄 장애를 일으키는 방식

Anthropic은 계층화된 추론 클러스터 (inference clusters)를 운영합니다. 하나의 클러스터가 포화되면, 초과 요청은 _대기열에 쌓이거나 실패_합니다. 이는 잘 설계된 AWS 멀티 리전 액티브-액티브 (AWS multi-region active-active) 시스템처럼 리전 간에 깔끔하게 경로를 재설정(reroute)하지 못합니다. 이것이 '불완전한 응답의 연쇄 반응'의 핵심입니다. 즉, 우아한 성능 저하 (graceful degradation)가 존재하지 않습니다. 단 하나의 과열된 노드가 장애의 진앙지가 되며, 해당 노드에 할당된 모든 세션은 동시에 응답 절단을 경험합니다. 저는 다른 추론 플랫폼에서도 이러한 패턴을 목격한 적이 있는데, 이는 항상 실제 상황보다 더 심각하게 느껴지며, 바로 이 점이 고객 지원 측면에서 악몽이 됩니다.

속도 제한 (Rate Limits), 컨텍스트 윈도우 (Context Windows), 그리고 대부분의 사용자가 모르는 숨겨진 트리거

대부분의 사용자는 트리거가 다가오는 것을 전혀 알아차리지 못합니다. 무료 티어 사용자는 부하가 걸릴 때 엄격한 메시지 상한선에 부딪힙니다. 200K 토큰 컨텍스트 윈도우 (context window)는 대규모 운영 시, 많은 동시 세션에 걸친 컨텍스트 고갈이 동일한 노드를 공유하는 인접 세션들을 저하시킬 수 있는 서버 측 **메모리 압박 (memory pressure)**을 생성한다는 것을 의미합니다. 당신은 아무런 잘못도 하지 않았습니다. 단지 이웃 사용자가 쏟아부은 180K 토큰 분량의 문서 데이터가 당신의 응답을 날려버린 것뿐입니다.

API 통합 개발자(integrators)들은 상황을 훨씬 더 악화시킵니다. LangGraph, n8n, 또는 CrewAI 오케스트레이션 (orchestration)을 사용하는 팀들은 병렬 요청을 동시에 쏟아붓습니다. 단 한 번의 에이전트 실행이 1초에 API를 10번 호출할 수 있으며, 이는 이미 포화 상태인 클러스터(clusters)에 부하를 증폭시킵니다. 여기에 MCP (Model Context Protocol) 서버 연결까지 더해지면, 직접적인 API 호출 위에 지연 시간(latency)과 실패 지점(failure surfaces)이 추가됩니다. 생산성을 높여주어야 할 오케스트레이션 프레임워크가 오히려 트래픽 급증 시 시스템을 무너뜨리는 원인이 됩니다.

LangGraph나 CrewAI와 같은 오케스트레이션 프레임워크는 '불완전한 응답 연쇄 반응 (Incomplete Response Cascade)'을 가속화하는 촉매제입니다. 트래픽 급증 중에 10개의 병렬 Claude 호출을 실행하는 워크플로우는 장애의 피해자가 아니라, 장애의 원인 제공자입니다.

API 사용자와 Claude.ai 웹 사용자가 다르게 영향을 받는 이유

Claude.ai의 웹 사용자는 연쇄 반응을 채팅 멈춤이나 응답 누락으로 경험합니다. 반면 API 사용자는 재시도 로직(retry logic)이 처리해야 하는 가공되지 않은 529 및 500 에러 코드를 받게 됩니다. 해결 방법이 다르기 때문에 이러한 비대칭성은 매우 중요합니다. 웹 사용자는 쿠키를 삭제하거나 모드를 전환하지만, API 사용자는 지수 백오프 (exponential backoff)와 제공자 폴백 (provider fallback)을 구현해야 합니다. 만약 당신의 팀이 멀티 에이전트 시스템 (multi-agent systems)을 기반으로 구축하고 있다면, 이 연쇄 반응은 단순히 발생하지 않기를 바랄 대상이 아니라, 아키텍처 차원에서 적극적으로 방어해야 할 대상입니다.