당신의 에이전트가 자체 인프라를 DDoS 공격하고 있습니다: Stack Overflow에서 복사한 재시도 로직이 원인입니다.

요약

AI 에이전트의 급격한 API 호출 패턴과 단순한 재시도 로직이 인프라에 DDoS 공격과 유사한 부하를 줄 수 있음을 경고합니다. 이를 방지하기 위해 배압(Backpressure) 관리와 비동기 큐 도입의 중요성을 강조합니다.

핵심 포인트

에이전트의 버스트 트래픽은 전통적인 속도 제한(Rate Limit)을 무력화함
단순한 재시도 로직은 서비스 거부 공격(DoS)을 유발하는 증폭 루프가 될 수 있음
배압 관리가 없을 경우 p95 지연 시간이 급격히 상승하는 현상 발생
비동기 큐와 배압 적용을 통해 p95 지연 시간을 약 40% 감소 가능

에이전트 워크플로우 (Agentic workflows)는 10~20개의 순차적인 API 호출을 급격한 버스트 (bursts) 형태로 체이닝합니다. 전통적인 분당 요청 제한 (rate limits) 환경에서 이러한 트래픽 패턴은 분산 서비스 거부 공격 (DDoS)과 구별할 수 없습니다.

tianpan.co는 다음에 발생하는 상황을 기록했습니다: "대부분의 SDK 예제에 포함된 순진한 재시도 로직 (naive retry logic)은 회복 탄력성 패턴 (resilience pattern)이라기보다 서비스 거부 공격 (DoS) 도구에 더 가깝습니다." 에이전트가 속도 제한 (rate limit)에 걸려 즉시 재시도하고, 그 재시도가 다시 속도 제한에 걸려 또 재시도하게 되면, 당신은 자신의 인프라를 공격하는 증폭 루프 (amplification loop)를 구축한 셈이 됩니다.

AI 추론 아키텍처 (AI inference architectures)에서 가장 흔히 발생하는 운영 사고는 다음과 같습니다: 요청 도착률 (request arrival rate)과 처리 용량 (processing capacity)의 불일치로 인한 큐 백프레셔 (queue backpressure)가 발생하며, 이는 포드 OOM (pod OOM) 및 연쇄 장애 (cascading failures)로 이어집니다.

당신의 에이전트는 공격을 받고 있는 것이 아닙니다. 그들이 바로 공격입니다.

에이전트 트래픽이 전통적인 속도 제한 (Rate Limiting)을 무너뜨리는 이유

전통적인 속도 제한 (rate limiting)은 인간의 상호작용 패턴을 위해 설계되었습니다: 한 명의 사용자, 하나의 브라우저, 초당 몇 개의 요청, 그리고 동작 사이의 자연스러운 휴지기.

# 인간의 트래픽 패턴 (속도 제한이 작동함):
# 09:00:01 - 사용자가 검색 클릭 (1개 요청)
# 09:00:03 - 사용자가 결과 읽기 (0개 요청)
...

fast.io는 다음과 같이 확인했습니다: "전통적인 속도 제한 (rate limiting)은 인간이 사용하는 브라우저와 앱을 위해 구축되었습니다. AI 에이전트 속도 제한 (rate limiting)은 서비스 중단을 방지하기 위해 에이전트가 얼마나 빈번하게 API 호출을 하고, 리소스에 접근하며, 크레딧을 소비하는지를 제어하는 것을 포함합니다."

순진한 재시도 증폭 문제 (The Naive Retry Amplification Problem)

모든 에이전트 프레임워크 (agent framework)에는 재시도 로직 (retry logic)이 포함되어 있습니다. 대부분은 동일한 패턴을 복사합니다: 에러를 잡고 (catch error), 잠시 기다린 후, 다시 시도합니다. 이 패턴이 멀티 에이전트 시스템 (multi-agent systems)에 적용되면 지수적 증폭 (exponential amplification)을 일으킵니다:

# 대부분의 에이전트 프레임워크가 제공하는 방식:
async def call_with_retry(fn, max_retries=3):
    for attempt in range(max_retries):
...

p95 지연 시간 (p95 Latency) 문제

배압 (Backpressure)이 없으면 에이전트 시스템은 특징적인 패턴을 보입니다: p50 지연 시간 (p50 Latency)은 괜찮아 보이지만, p95는 재앙적입니다. markaicode는 해결 방법을 문서화했습니다: 비동기 큐 (async queue) + 배압 (backpressure)을 적용하면 p95 지연 시간이 40% 감소합니다.

# 배압 관리(backpressure management)가 없는 경우:
latency_profile = {
    "p50": "200ms",   # 대시보드상으로는 괜찮아 보임
...

에이전트 메시징에 적용된 리틀의 법칙 (Little's Law)

대기 행렬 이론 (Queue theory)은 정확한 관계식을 제공합니다: L = lambda * W (대기 행렬 길이 = 도착률 * 대기 시간). 에이전트들이 분당 100개를 처리하는 시스템에 분당 2,400개의 요청을 폭발적으로(burst) 밀어 넣으면, 무언가가 충돌할 때까지 큐 (queue)는 무한히 증가합니다.

해결책은 더 빠른 처리가 아닙니다. 제어된 수용 (controlled admission)입니다:

수용 제어 (Admission control): 과도한 부하가 큐에 진입하기 전에 거부
배압 신호 (Backpressure signals): 에이전트에게 단순히 차단하는 것이 아니라 속도를 늦추라고 지시
부하 차단 (Load shedding): 압박이 심할 때 우선순위가 낮은 메시지를 드롭
우선순위 큐 (Priority queues): 중요한 에이전트 메시지는 대기 줄을 건너뜀

결론

당신의 에이전트들은 DDoS 공격과 동일한 트래픽 패턴을 생성합니다. 전통적인 속도 제한 (rate limiting)은 이들을 차단합니다. 순진한 재시도 (naive retry)는 문제를 증폭시킵니다. 큐가 가득 차고, p95가 폭발하며, 포드 (pods)가 OOM (Out of Memory) 상태가 되고, 전체 시스템이 연쇄적으로 붕괴합니다.

rosud-call은 메시징 계층에 배압 (backpressure)이 내장되어 있습니다. 에이전트당 토큰 버킷 (Token bucket) 속도 제한. 재시도 시 상관관계가 제거된 지터 (Decorrelated jitter). 큐 진입 전의 수용 제어 (Admission control). 실패한 메시지를 위한 데드 레터 큐 (Dead letter queues). 이는 10개의 에이전트를 우아하게 처리하는 시스템과 5개에서 무너지는 시스템의 차이입니다.

스스로를 DDoS 하지 마세요. 에이전트 통신에 배압 (backpressure)을 추가하세요.

에이전트 메시징에 배압 추가하기: rosud.com/docs

AI 자동 생성 콘텐츠

원문 바로가기

당신의 에이전트가 자체 인프라를 DDoS 공격하고 있습니다: Stack Overflow에서 복사한 재시도 로직이 원인입니다.

요약

핵심 포인트

댓글