멀티 에이전트 SRE란 무엇인가? 실무적인 입문 가이드

올해 제가 대화한 모든 SRE 팀은 서로 다른 영역에서 동일한 실험을 진행하고 있습니다: "AI가 이 업무 중 일부를 수행할 수 있을까?" 솔직한 답변은 '예'입니다. 하지만 단일 AI로 생각하는 것을 멈추고 에이전트(Agent) 팀으로 생각하기 시작할 때만 가능합니다. 다음은 실무에서 "멀티 에이전트 SRE (Multi-Agent SRE)"가 실제로 무엇을 의미하는지에 대한 내용입니다.

왜 하나의 거대한 모델로는 충분하지 않은가

첫 번째 본능은 장애(Incident) 상황에 대규모 언어 모델 (LLM)을 투입하는 것입니다. 알림(Alert)을 붙여넣고, 로그를 붙여넣고, 근본 원인(Root cause)을 묻는 식입니다. 데모에서는 작동합니다. 하지만 운영 환경(Production)에서는 세 가지 이유로 무너집니다.

첫째, 컨텍스트 제한 (Context limits)입니다. 실제 장애는 서비스, 배포 타임라인, 런북 (Runbooks), 그리고 최근의 설정 변경 사항에 걸쳐 발생합니다. 관련 데이터를 다 확인하기도 전에 토큰 (Tokens)이 바닥납니다.

둘째, 전문화 (Specialization)입니다. 탐지 (Detection)는 분류 (Triage)와는 다른 작업입니다. 분류는 복구 (Remediation)와는 또 다른 작업입니다. 이 세 가지를 모두 수행하려는 하나의 프롬프트 (Prompt)는 모든 영역에서 얕은 결과만을 만들어냅니다.

셋째, 신뢰 (Trust)입니다. 모든 것을 "결정"하는 단일하고 불투명한 모델은 두렵습니다. 감사 (Audit)할 수 없습니다. 일시 중지할 수 없습니다. 업무의 일부를 인간에게 넘기고 나머지는 계속 실행되도록 유지할 수도 없습니다.

멀티 에이전트 접근 방식

멀티 에이전트 시스템은 장애 생명주기 (Incident lifecycle)를 서로 협력하는 전문가들로 분해합니다.

탐지 에이전트 (Detection agent). 가공되지 않은 신호 (Raw signals)를 감시합니다. 이를 후보 장애로 분류합니다.

상관관계 에이전트 (Correlation agent). 관련된 알림들을 하나의 장애 기록으로 통합합니다. 중복을 제거하고 하류 (Downstream)의 노이즈를 표시합니다.

조사 에이전트 (Investigation agent). 로그, 트레이스 (Traces), 배포 이력, 그리고 서비스 그래프 (Service graph)를 탐색합니다. 증거와 함께 근본 원인을 제안합니다.

복구 에이전트 (Remediation agent). 근본 원인을 구체적이고 되돌릴 수 있는 작업으로 변환합니다. 실행하기 전에 인간의 승인을 기다립니다.

사후 분석 에이전트 (Post-mortem agent). 해결 후, 타임라인, 기여 요인, 그리고 조치 사항 (Action items)의 초안을 작성합니다. 인간이 편집하고 발행합니다.

각 에이전트는 좁은 범위의 업무를 소유합니다. 각 에이전트는 다음 에이전트가 소비할 수 있는 구조화된 출력 (Structured output)을 생성합니다. 에이전트 간의 인수인계는 채팅 기록이 아니라, 타입이 지정된 산출물 (Typed artifact)입니다.

이것이 제공하는 것

단일 모델 시스템이 할 수 없는 세 가지입니다.

경계가 지정된 컨텍스트 (Bounded context). 각 에이전트는 자신에게 필요한 정보만 보유합니다. 탐지 에이전트 (Detection agent)는 실행 지침서 (Runbook)를 절대 보지 않습니다. 사후 분석 에이전트 (Post-mortem agent)는 가공되지 않은 로그 (Raw logs)를 보지 않습니다. 컨텍스트가 작게 유지되므로 품질이 높게 유지됩니다.

검사 가능한 접점 (Inspectable seams). 어떤 에이전트의 출력이라도 읽어보고 그가 정확히 무엇을 결정했는지 알 수 있습니다. 만약 조사 에이전트 (Investigation agent)가 틀렸다면, 10페이지 분량의 프롬프트 (Prompt)를 풀어서 분석할 필요 없이 그 이유를 바로 확인할 수 있습니다.

어느 지점에서든 가능한 인간의 개입 (Human takeover at any point). 사람은 어떤 두 에이전트 사이에서도 개입하여 산출물 (Artifact)로부터 작업을 이어갈 수 있습니다. 다시 설명할 필요도 없고, 이력이 유실되지도 않습니다.

잘못 설계했을 때 발생하는 문제

초기 멀티 에이전트 구축 시 두 가지 실패 모드 (Failure modes)가 지배적입니다.

수다스러운 에이전트 (Chatty agents). 에이전트들이 타입이 지정된 산출물 (Typed artifacts) 대신 공유 메모리 스크래치패드 (Shared memory scratchpad)를 통해 통신하면, 컨텍스트가 표류 (Drift)합니다. 루프 (Loops)가 형성됩니다. 조치 에이전트 (Remediation agent)가 조사 에이전트가 세 단계 전에 작성한 내용을 읽고 오래된 정보에 기반하여 행동하게 됩니다.

범위가 지정되지 않은 권한 (Unscoped permissions). 모든 에이전트가 동일한 자격 증명 (Credentials)을 가지고 있으면, 단 하나의 탈취된 프롬프트 (Compromised prompt)가 해당 에이전트의 책임 범위를 훨씬 벗어난 행동을 유발할 수 있습니다. 권한 범위를 엄격하게 제한하십시오.

시작하는 방법

실험해보고 싶다면 가장 범위가 좁은 에이전트인 상관관계 분석 (Correlation)부터 시작하십시오. 이는 읽기 전용 (Read-only)이며, 입력값은 명확하게 정의되어 있고 (알람), 출력값도 분명합니다 (그룹화된 인시던트). 이를 배포하고 정밀도 (Precision)를 측정하며, 영향 범위 (Blast radius) 없이 롤백 (Roll back)할 수 있습니다.

상관관계 분석이 안정되면 조사 (Investigation)를 추가하십시오. 그다음 탐지 (Detection)를 추가합니다. 조치 (Remediation)는 가장 마지막에 도입하며, 반드시 승인 대기열 (Approval queues)과 되돌릴 수 있는 작업 (Reversible actions)을 동반해야 합니다.

이 과정은 며칠이 아니라 몇 달이 걸립니다. 괜찮습니다. 이를 잘 수행하고 있는 팀들은 경주를 하는 것이 아니라, 새벽 3시에 믿고 맡길 수 있는 무언가를 구축하고 있는 것이기 때문입니다.

작성자: Dr. Samson Tanimawo
BSc · MSc · MBA · PhD
Founder & CEO, Nova AI Ops. https://novaaiops.com