멀티 에이전트 관측성 (Multi-Agent Observability): AI 에이전트가 수행하는 모든 것을 확인하는 방법

세 개의 에이전트를 병렬로 실행하기 시작했을 때, 저는 흐름을 놓치고 말았습니다. 어떤 에이전트가 저를 기다리고 있는지, 어떤 에이전트가 잘못된 도구 호출 (tool call)로 인해 멈춰 있는지, 혹은 왜 최종 결과물에서 일부 내용이 누락되었는지 알 수 없었습니다.

문제는 에이전트가 아니라, 그들이 실제로 무엇을 하고 있는지에 대한 가시성 (visibility)이 전혀 없었다는 점이었습니다. 모든 것을 중단하고 터미널을 직접 읽어보기 전까지는 각 에이전트가 하나의 블랙박스 (black box)와 같았습니다.

이를 해결하기 위해 제가 구축한 설정은 다음과 같습니다. Claude Code 훅 (hooks)이 최소한의 이벤트 서버 (event server)로 데이터를 전달하게 하여, 3개, 5개, 혹은 10개의 인스턴스(instances)가 동시에 돌아가더라도 모든 에이전트가 무엇을 하고 있는지 실시간으로 확인할 수 있습니다.

문제점: 너무 많은 에이전트, 너무 적은 가시성

병렬로 작업을 수행하며 SDLC 하네스 (SDLC harness)를 실행할 때, 설정은 대략 다음과 같습니다:

새로운 모듈을 구현하는 에이전트 하나
이전 작업의 결과물을 검토하는 또 다른 에이전트
검증 게이트 (validation gates)를 실행하는 세 번째 에이전트
코드베이스의 서로 다른 부분에 대해 조사하는 두 개의 에이전트

관측성 (observability) 없이는 눈을 가리고 비행하는 것과 같습니다. 어떤 에이전트가 사용자의 입력을 필요로 하나요? 그들은 실제로 무엇을 하고 있나요? 무언가 잘못되었을 때, 어떻게 이를 추적 (trace)할 수 있을까요?

해결책: 실시간 멀티 에이전트 관측성

우리가 구축하고 있는 것은 다음과 같습니다:

┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  Claude Agent 1 │     │  Claude Agent 2 │     │  Claude Agent 3 │
│   (App: CRM)    │     │ (App: API Docs) │     │ (App: Testing)  │
...

주요 기능:

실시간 활동 펄스 (Live Activity Pulse): 모든 에이전트 활동의 시각적 표현
이벤트 스트림 (Event Stream): 모든 도구 호출 (tool call), 훅 (hook), 그리고 결정 사항
AI 기반 요약 (AI-Powered Summaries): 각 에이전트가 무엇을 하고 있는지 한눈에 파악
세션 추적 (Session Tracking): 쉬운 식별을 위한 에이전트별 색상 코드 지정

관측성 시스템 구축하기

1단계: 강화된 훅 (Hook) 구성

먼저, 포괄적인 이벤트 데이터를 전송할 수 있도록 훅을 업그레이드합니다:

#!/usr/bin/env python3
# ~/.claude/hooks/send-event.py

...

2단계: 모든 이벤트에 대한 훅 구성

# ~/.claude/settings.yaml
hooks:
  pre-prompt:
...

3단계: 이벤트 서버 구축 (Build the Event Server)

// server.ts
import { serve } from 'bun';
import { Database } from 'bun:sqlite';
...

4단계: 실시간 대시보드 생성 (Create the Real-Time Dashboard)

// useWebSocketEvents.ts
import { ref, onMounted, onUnmounted } from 'vue';

...

고급 관측성 기능 (Advanced Observability Features)

1. 라이브 활동 펄스 (Live Activity Pulse)

활동 강도와 어떤 에이전트가 가장 활발한지를 보여주는 펄스 차트(pulse chart)를 통해 시간에 따른 에이전트 활동을 시각화합니다.

2. 스마트 이벤트 필터링 (Smart Event Filtering)

다음 항목별로 이벤트를 필터링합니다:

애플리케이션 이름 (Application name)
이벤트 유형 (Event type) (pre-tool-use, post-tool-use 등)
세션 ID (Session ID)
시간 범위 (Time range)
검색 쿼리 (Search query)

3. 세션 기반 색상 코딩 (Session-Based Color Coding)

각 에이전트 세션은 세션 ID를 기반으로 고유한 색상을 할당받아, 개별 에이전트를 시각적으로 쉽게 추적할 수 있습니다.

실무 패턴 (Practical Patterns)

패턴 1: 에이전트 상태 모니터링 (Agent Health Monitoring)

마지막 이벤트 이후 경과 시간을 추적하여 에이전트가 멈추거나 응답을 중단하는 시점을 감지합니다.

패턴 2: 에이전트 간 협업 추적 (Cross-Agent Coordination)

충돌을 방지하기 위해 여러 에이전트가 동일한 파일에서 작업하고 있는지 추적합니다.

패턴 3: 성능 분석 (Performance Analytics)

다음과 같은 지표로 에이전트 성능을 측정합니다:

세션당 총 이벤트 수 (Total events per session)
사용된 도구 (Tools used)
평균 응답 시간 (Average response time)
에러율 (Error rate)
AI 생성 요약 (AI-generated summaries)

참고:
전문가 팁 (Pro Tip): 이벤트 요약을 위해 claude-3-haiku-20240307과 같이 작고 빠른 모델을 사용하세요. 요약이 빠르게 생성되고 핵심 경로(critical path)를 방해하지 않으므로, 에이전트 처리량(throughput)을 높게 유지할 수 있습니다.

확장 고려 사항 (Scaling Considerations)

에이전트 규모를 3개에서 30개로 확장할 때:

1. 이벤트 샘플링 (Event Sampling)

고빈도 이벤트의 경우, 모든 것을 기록하기보다 샘플링을 수행합니다:

if (Math.random() < 0.1) { // 10% 샘플링
  sendEvent(data);
}

2. 배치 처리 (Batch Processing)

네트워크 오버헤드를 줄이기 위해 이벤트를 배치(batch) 단위로 전송합니다:

const eventBatch = [];
const flushBatch = () => {
  if (eventBatch.length > 0) {
...

3. 데이터 보관 (Data Retention)

자동 정리(cleanup) 기능을 구현합니다:

DELETE FROM events WHERE timestamp < datetime('now', '-7 days');

가시성의 힘

멀티 에이전트 관측성 (Multi-Agent Observability)이 구축되면 다음과 같은 작업이 가능합니다:

자신 있게 확장 (Scale Confidently): 흐름을 놓치지 않고 10개 이상의 에이전트를 실행할 수 있습니다.
빠른 디버깅 (Debug Quickly): 문제를 특정 에이전트와 작업(Action)으로 추적할 수 있습니다.
워크플로 최적화 (Optimize Workflows): 병목 현상과 비효율성을 식별할 수 있습니다.
충돌 방지 (Prevent Conflicts): 에이전트들이 서로의 영역을 침범할 때 이를 감지할 수 있습니다.
영향력 측정 (Measure Impact): 에이전트가 실제로 완수하는 성과를 정량화할 수 있습니다.

→
실질적인 영향: 관측성이 갖춰지면, 단순히 잘 되기를 바라는 것이 아니라 에이전트가 하는 모든 것을 볼 수 있기 때문에 여러 에이전트에게 병렬로 작업을 안심하고 맡길 수 있습니다.

시작하기

단순하게 시작하기: 파일에 기본적인 이벤트 로깅 (Event Logging)을 하는 것부터 시작하세요.
실시간 기능 추가: WebSocket 브로드캐스팅 (Broadcasting)을 구현하세요.
대시보드 구축: 간단한 이벤트 목록으로 시작하여 시각화 (Visualization) 기능을 추가하세요.
점진적 확장: 관측성이 향상됨에 따라 더 많은 에이전트를 추가하세요.

기억하세요: 측정할 수 없다면 개선할 수 없습니다. 모니터링(Monitor)하지 않는다면 실제로 무슨 일이 일어나고 있는지 어떻게 알 수 있겠습니까?

엔지니어링의 미래는 멀티 에이전트 시스템 (Multi-Agent Systems)에 있습니다. 멀티 에이전트 시스템의 핵심은 관측성 (Observability)입니다. 한 번 구축하면 영원히 확장할 수 있습니다.

당신의 에이전트들은 열심히 일하고 있습니다. 이제 그들이 하는 모든 것을 볼 수 있어야 할 때입니다.

이 내용이 유용했다면, 저는 learn-agentic-ai.com에서 프로덕션급 AI 및 에이전트 시스템 (Agentic Systems) 구축에 대해 글을 쓰고 있습니다. 영어와 브라질 포르투갈어로 제공되는 실습 학습 경로도 포함되어 있습니다. 함께 진짜 무언가를 만들어 봅시다.