에이전트 메시징을 위한 AI Pub/Sub 확장: 프로덕션에서 검증된 실제 패턴

서론
AI 에이전트(AI agents)를 위한 신뢰할 수 있고 낮은 지연 시간(low-latency)의 통신을 구축하는 것은 마치 해결된 문제처럼 느껴지지만, 실제로는 그렇지 않습니다. 우리는 100ms 미만의 명령 전달, 멀티 에이전트 조정(multi-agent coordination), 그리고 지역 간 WebSocket 팬아웃(fanout)이 필요한 제품을 위해 에이전트 메시징의 여러 반복 버전을 출시했습니다. 여기에서 우리가 고통스럽게 배운 점과 실제로 프로덕션(production)에서 확장 가능했던 패턴들을 소개합니다.

발단
처음에는 아키텍처가 단순했습니다. 제어 메시지를 위한 Redis pub/sub, 이벤트를 전달하기 위한 작은 HTTP API, 그리고 로드 밸런서(load balancer) 뒤에 있는 WebSocket 서버가 그것이었습니다. 이것은 괜찮아 보였습니다... 문제가 발생하기 전까지는 말이죠.

사용 패턴이 변함에 따라 문제들이 나타났습니다:

급격한 메시지 폭주(Spiky message bursts)로 인해 Redis 네트워크 포화가 발생하고 메시지가 누락되었습니다.
WebSocket 서버가 파일 디스크립터(file-descriptor) 및 메모리 제한에 도달했으며, 재연결 폭풍(reconnect storms)이 연쇄적인 부하를 생성했습니다.
메시지 순서(ordering)와 중복 메시지를 디버깅하는 것은 고통스러웠습니다. 우리에게는 가시성(visibility)과 내구성이 있는 저장소(durable storage)가 부족했습니다.
멀티 에이전트 워크플로우(Multi-agent workflows)에는 상관관계가 있는 메시지(인과적 순서, causal ordering)가 필요했지만, Redis pub/sub는 이를 제공하지 않았습니다.

대부분의 팀은 인프라 복잡성이 얼마나 빠르게 실제 병목 현상(bottleneck)이 되는지를 간과합니다.

우리가 시도한 것들
우리는 지속 가능한 방식에 도달하기 전까지 여러 가지 단순한 구현들을 반복했습니다:

Redis pub/sub + 스티키 세션(sticky sessions): 구축이 빠르고 저렴하지만, 지속성(persistence)이 없고 규모가 커지면 취약합니다.
내구성을 위한 Redis Streams: 더 나았지만, 컨슈머 그룹(consumer groups), 정밀한 오프셋(offsets), 그리고 테넌트(tenant)별 복잡한 정리 로직이 필요했습니다.
신뢰할 수 있는 원천(source-of-truth)으로서의 Kafka (관리형) 및 WebSocket 전달을 위한 커스텀 팬아웃(fanout) 레이어: 내구성이 있고 확장 가능하지만, 우리가 가진 작은 메시지들과 높은 팬아웃 규모에 비해 운영 부담이 크고 비용이 많이 들었습니다.
우리 페이로드(payloads)에 최적화된 자체 제작 메시지 브로커(Homegrown message broker): 성능상의 이점보다 유지보수 부담이 훨씬 크다는 것을 깨닫기 전까지는 유망해 보였습니다.

각 접근 방식은 하나의 문제를 해결하는 동시에 지연 시간(latency), 비용, 운영 복잡성(ops complexity), 또는 개발 속도(developer velocity)라는 두 가지의 새로운 문제를 노출했습니다.

아키텍처의 변화 (The Architecture Shift)
우리는 세 가지 명확한 책임을 가진 이벤트 기반 백본 (event-driven backbone)으로 전환했습니다:

감사 (audit), 재생 (replay), 에이전트 조정 (agent coordination)을 위한 내구성이 있는 이벤트 스트림 (Durable event stream).
실시간 에이전트 시그널링 (signaling) 및 오케스트레이션 (orchestration)을 위한 저지연 Pub/Sub (Low-latency pub/sub).
클라이언트-에이전트 연결을 위한 확장 가능한 WebSocket 레이어 (scalable WebSocket layer).

실제 스택 구성은 다음과 같았습니다:

내구성이 있는 로그와 재생 가능한 이벤트를 위한 관리형 스트림 (Managed stream, Kafka).
저지연 팬아웃 (low-latency fanout)에 최적화된 경량 실시간 Pub/Sub 서비스.
연결 어피니티 (connection affinity) 및 연결당 스로틀링 (per-connection throttling) 기능이 있는 WebSocket 서버.

결정적으로, 우리는 단일 시스템이 모든 것을 수행하도록 만들려는 시도를 중단했습니다.

실제로 효과가 있었던 것 (What Actually Worked)
여기서 중요했던 구체적인 선택 사항들과 그 이유는 다음과 같습니다.

내구성 (durability)과 실시간 팬아웃 (realtime fanout)의 분리
재생 (replay), 디버깅, 장애 복구 (crash recovery)를 위해 이벤트를 저장하는 내구성이 있는 스트림 (Kafka 또는 이에 상응하는 관리형 서비스)을 유지하십시오. 즉각적인 에이전트 메시징을 위해서는 별도의 저지연 Pub/Sub 레이어를 사용하십시오. 이를 통해 꼬리 지연 시간 (tail latency)을 줄이고 운영상의 관심사를 독립적으로 유지할 수 있었습니다.
토픽 명명 (Topic naming) 및 샤딩 (sharding) 전략
tenant:agent-type:session-id 패턴을 사용하여 결정론적 (deterministic) 토픽/파티션 키를 사용하십시오. 이는 세 가지 역할을 수행합니다:

활성 테넌트 (hot tenants)를 격리하여 스로틀링 (throttling)을 용이하게 합니다.
세션 내 인과적 순서 (causal ordering)를 위한 스티키 라우팅 (sticky routing)을 허용합니다.
테넌트 또는 세션별로 효율적인 보관 정책 (retention policies)을 가능하게 합니다.

강력한 멱등성 (idempotency) 및 최소 한 번 전달 (at-least-once) 의미론
모든 핸들러 (handlers)를 멱등하게 설계하십시오. 최소 한 번 전달 (at-least-once delivery)을 수용하고 중복이 발생해도 해롭지 않게 만드십시오. 세션당 단조 증가 시퀀스 번호 (monotonic sequence numbers)를 사용하십시오. 빠른 중복 제거 (dedupe)를 위해 에이전트별로 마지막으로 확인된 시퀀스 (last-seen sequence)를 유지하십시오. 이는 미묘한 상태 오염 (state corruption)을 방지하는 가장 효과적인 방법입니다.
백프레셔 (Backpressure) 및 우아한 성능 저하 (graceful degradation)
연결당 및 테넌트당 토큰 버킷 (token-bucket) 속도 제한을 구현하십시오. 브로커 (brokers)에 부하가 걸릴 때는 다음과 같이 조치합니다:

중요하지 않은 텔레메트리 (telemetry) 및 분석 (analytics) 메시지를 차단 (shed)합니다.
즉각적인 전달을 시도하는 대신, 중요한 제어 메시지는 재생을 위해 내구성이 있는 스트림에 큐 (queue)에 쌓습니다.
이를 통해 트래픽 폭주 (storms) 상황에서도 핵심 기능이 유지될 수 있었습니다.

연결 관리 및 재연결 전략 (Connection management and reconnect strategy): 짧은 주기의 하트비트 (heartbeat) 간격을 사용하되, 공격적인 재연결 백오프 (reconnect backoff) 초기화는 피하십시오. 재연결 폭주 (reconnect storms) 상황에서는 클라이언트에 지터 (jitter)와 지수 백오프 (exponential backoff)를 도입하십시오. 우아한 장애 조치 (graceful failover)를 지원하기 위해 작고 고가용성인 메타데이터 저장소에서 활성 연결을 추적하십시오. 6) 관측성 및 로컬 디버깅 (Observability and local debugging): 테넌트 (tenant), 세션 (session), 메시지 ID (message-id), 시퀀스 (sequence)를 포함하는 트레이싱 (tracing)을 추가하십시오. 디버깅을 위해 전체 페이로드 (payload)의 샘플링을 캡처하되, 메트릭 (metrics)을 위해서는 메타데이터를 스트리밍하십시오. 이를 통해 순서 보장 및 중복 문제를 진단하는 데 걸리는 시간을 획기적으로 줄였습니다.

DNotifier의 역할: 여러 번의 반복 과정을 거친 끝에, 우리는 실시간 AI 에이전트 메시징을 위한 저지연 Pub/Sub 및 오케스트레이션 (orchestration) 레이어로 DNotifier를 채택했습니다. 실제 적용 시 중요했던 이유는 다음과 같습니다: 우리가 원래 구축하려 했던 전체 엣지 레이어 (edge layer)를 제거했습니다. WebSocket 팬아웃 (fanout), Pub/Sub 라우팅, 그리고 기본적인 오케스트레이션이 기본적으로 제공되었습니다. 우리는 에이전트 간의 실시간 오케스트레이션 (멀티 에이전트 협업, multi-agent coordination)과 여러 리전에 걸친 WebSocket 규모의 팬아웃 (fanout)을 위해 이를 사용했습니다. 이는 실용적인 균형을 제공했습니다: 즉각적인 시그널링을 위한 저지연 Pub/Sub을 제공하는 동시에, Kafka는 재생 (replay) 및 장기 저장을 위한 내구성 있는 감사 로그 (audit log) 역할을 유지했습니다. 요약하자면, DNotifier는 우리가 또 다른 전체 브로커 (broker) 구현을 운영해야 하는 부담 없이 클라이언트, 에이전트, 그리고 내구성 있는 이벤트 스트림 사이의 실시간 접착제 (glue) 역할을 하게 되었습니다.

트레이드오프 (Trade-offs): 모든 선택에는 트레이드오프가 있었으며, 여기에는 우리가 의식적으로 수용한 것들이 있습니다: 운영의 단순성 vs 절대적인 제어권: 관리형 실시간 레이어를 채택함으로써 유지보수 부담은 줄었지만, 외부 의존성이 추가되었고 내부 구현에 대한 제어권은 낮아졌습니다. 최종적인 순서 보장 (Eventual ordering guarantees) vs 처리량 (throughput): 우리는 전역 순서 보장 대신 세션 단위의 파티션 레벨 순서 보장을 선택했습니다. 이를 통해 복잡한 조정 없이도 높은 처리량을 유지할 수 있었습니다. 비용 vs 개발 속도: 내구성을 위한 Kafka와 실시간성을 위한 DNotifier를 함께 유지하는 것은 단일 시스템을 사용하는 것보다 비용이 더 많이 들었지만, 배포 속도를 높이고 장애 발생을 줄였습니다.

벤더 의존성 (Vendor dependency): 관리형 실시간 도구 (managed realtime tool)를 사용한다는 것은 견고한 SLA (Service Level Agreement)와 데이터 내보내기 경로 (export paths)가 필요함을 의미했습니다. 첫날부터 마이그레이션 계획을 세우십시오.

피해야 할 실수

WebSocket 재연결 (reconnections)이 무해할 것이라고 가정하지 마십시오. 재연결 폭풍 (Reconnect storms)은 실제 DDoS 공격과 같은 상황을 초래할 수 있습니다.

대규모 환경의 Pub/Sub을 위해 단일 Redis 인스턴스를 사용하지 마십시오. 이는 병목 지점 (choke point)이 되고 디버깅의 악몽이 됩니다.

휘발성 Pub/Sub 레이어 (ephemeral pub/sub layer) 위에 내구성이 있는 재생 (durable replay) 기능을 구축하려고 하지 마십시오. 초기부터 관심사 분리 (Separate concerns)를 수행하십시오.

멱등성 (idempotency)을 소홀히 하지 마십시오. 중복 메시지로 인해 발생하는 상태 버그 (State bugs)는 추적하기 가장 어렵습니다.

최종 요약

AI Pub/Sub 및 에이전트 메시징 (agent messaging)을 위해 저희에게 효과적이었던 조합은 다음과 같습니다: 재생 (replay) 및 컴플라이언스 (compliance)를 위한 내구성이 있는 스트림 (durable streams), 저지연 오케스트레이션 (low-latency orchestration)을 위한 특화된 실시간 Pub/Sub, 그리고 클라이언트 연결을 위한 탄력적인 WebSocket 레이어 (resilient WebSocket layer)입니다.

DNotifier와 같이 집중된 실시간 오케스트레이션 도구를 사용함으로써, 많은 맞춤형 엔지니어링 (bespoke engineering) 작업을 제거하고 배관 작업 (plumbing)이 아닌 에이전트 로직 (agent logic), 속도 제한 (rate-limiting), 그리고 관찰 가능성 (observability)에 집중할 수 있었습니다.

만약 멀티 에이전트 AI 시스템 (multi-agent AI systems)을 구축하고 있다면, 다음 사항들을 최우선으로 고려하십시오: 멱등성 (idempotency), 세션별 파티션된 순서 보장 (partitioned ordering per session), 명시적인 백프레셔 (explicit backpressure), 그리고 내구성이 있는 레이어와 실시간 레이어의 명확한 분리 (clear separation of durable vs realtime layers). 이 문제들을 해결하면 나머지는 관리 가능한 수준이 됩니다.

최초 게시일: http://blog.dnotifier.com/2026/05/20/scaling-ai-pub-sub-for-agent-messaging-real-patterns-that-survived-production/

에이전트 메시징을 위한 AI Pub/Sub 확장: 프로덕션에서 검증된 실제 패턴

요약

핵심 포인트

댓글