엔터프라이즈 AI 에이전트를 위한 가드레일 — 실제 운영 환경에서 핵심적인 요소는 무엇인가 - Insights | Molayo

Fortune 100 기업에서 2년간 프로덕션 에이전트를 구축하며 얻은 현장 기록

AI 가드레일에 관한 대부분의 글은 벤더의 홍보 문구처럼 읽힙니다. 계층화된 아키텍처 다이어그램, 기능 목록, 보안 체크리스트 결과물 같은 것들 말이죠. 실제 운영 환경에서 엔터프라이즈 AI 에이전트 시스템을 안전하게 유지하는 현실은 그보다 훨씬 좁고, 덜 화려하며, 대부분 LLM 이전에 이미 존재했던 것들입니다. IAM, 네트워크 이그레스 (network egress), 감사 추적 (audit trails), 비밀 관리 (secrets management) 등이 그것입니다. 여기에 에이전트 계층을 위한 몇 가지 새로운 제어 장치가 덧붙여질 뿐입니다.

저는 지난 2년 동안 Fortune 100 제조 기업에서 프로덕션 AI 플랫폼 에이전트를 구축하는 데 시간을 보냈습니다. 이 에이전트들은 CI/CD 실패를 진단하고, Microsoft Teams 채널에서 Kubernetes 장애를 분류하며, 라이브 리포지토리와 Terraform 상태로부터 인프라 문서를 생성하고, 엔지니어링 파이프라인에 대한 실시간 가이드를 제공합니다. 이들은 EKS 위에서 실행되며, LangChain 오케스트레이션 계층을 통해 OpenAI API와 통신하고, 우리가 유지 관리하는 RAG 코퍼스에 답변의 근거를 둡니다.

이어지는 내용은 모든 가드레일 옵션에 대한 조사 보고서가 아닙니다. 우리가 실제로 모든 에이전트 앞에 배치하여 운영 중인 계층화된 스택이며, 특정 요소를 제거했을 때 무엇이 가장 먼저 무너질지를 기준으로 순위를 매겼습니다. 또한, 무엇이 보여주기식(theater)인지에 대한 섹션과 제가 틀렸던 부분에 대한 섹션도 포함되어 있습니다.

계층화된 가드레일 스택

위에서 아래로 내려가는 구조입니다. 각 계층은 특정 유형의 실패를 방지합니다. 순서가 중요합니다. 계층이 일찍 실패할수록 실패 모드는 더 치명적입니다.

1. 에이전트 경계에서의 신원(Identity). 모든 에이전트는 워크로드 신원(EKS의 IRSA, 또는 다른 클라우드의 동일한 기능)으로 실행되며, 공유 서비스 자격 증명을 절대 사용하지 않습니다. 에이전트의 IAM 범위는 에이전트가 할 수 있는 모든 일의 보안 천장입니다. 어떤 프롬프트도, 모델 업그레이드도, 영리한 도구 시퀀스도 이를 우회할 수 없습니다. 만약 에이전트가 데이터베이스에 대한 읽기 권한이 필요하지 않다면, IAM 역할에는 해당 권한이 없습니다. 이것은 우리가 운영하는 가장 지루하면서도 가장 핵심적인(load-bearing) 제어 장치입니다. 에이전트의 IAM 범위가 너무 넓다면 이 목록의 다른 어떤 것도 중요하지 않습니다.

2. 에이전트별 도구 허용 목록 (Tool allow-lists). 모델은 어떤 도구를 호출할지 결정합니다. 플랫폼은 해당 에이전트의 환경에 어떤 도구들이 존재하는지 결정합니다. 코드 검색 (code-search) 에이전트에는

모델 버전 고정 (Model-version pinning) 및 카나리 배포 (Canary rollout). 여타 프로덕션 서비스와 동일한 규율을 따릅니다. 모델 업그레이드는 트래픽의 1%에 먼저 적용하고, 그다음 10%, 마지막으로 전체에 적용합니다. 우리는 이 방식을 통해 실제 성능 저하 (regressions)를 포착할 수 있었습니다. "그냥 최신 모델로 업그레이드하면 된다"는 패턴은 운영 장애 (production incident)를 초래하기 위해 기다리고 있는 위험한 방식입니다.

이미 운영 중인 프레임워크에 대한 컴플라이언스 매핑 (Compliance mapping). 우리는 에이전트 제어 항목을 기존의 SOC 2, NIST, GDPR 제어 패밀리 (control families)에 매핑했습니다. AI를 위해 새로운 컴플라이언스 카테고리를 만들어내지 마세요. 해야 할 일은 이미 존재하는 것을 확장하는 것입니다.

내가 실수했던 것들

솔직히 세 가지가 있었습니다:

IAM 계층을 수정하기 전에 프롬프트 수준의 가드레일에 과도하게 투자했습니다. 첫 분기에 저는 에이전트의 IAM 역할 (IAM role) 범위를 설정하는 데 쓰는 시간보다, 특정 요청을 거부하도록 프롬프트를 튜닝하는 데 더 많은 시간을 보냈습니다. 올바른 조치는 정반대였습니다. IAM 범위를 90% 더 좁히고, 프롬프트는 보안 계층 (security layer)이 아닌 행동 계층 (behavior layer)으로 취급해야 했습니다. 이 교훈은 일반화될 수 있습니다. 확신이 서지 않을 때는 제어 기능을 스택 (stack)의 가능한 한 낮은 곳으로 옮기십시오.

감사 추적 (Audit trail) 구축을 소홀히 했습니다. 처음에는 프롬프트와 최종 답변만을 캡처하는 로깅 (logging)으로 시작했습니다. 중간 단계의 도구 호출 (tool calls), 도구 인자 (tool arguments), 모델 버전, 또는 요청 계보 (request lineage)는 캡처하지 않았습니다. 처음 몇 달 동안 사고를 재구성하는 과정은 고통스러웠고, 나중에 다시 계측 (re-instrumenting)하는 과정 또한 고통스러웠습니다. 솔직한 답은 첫날부터 감사 추적을 과도하게 구축하는 것입니다. 캡처하는 비용은 저렴하지만, 나중에 소급 적용하는 비용은 매우 비쌉니다.

멀티 에이전트 오케스트레이션 (Multi-agent orchestration)을 실제보다 어렵게 생각했다가, 그다음에는 실제보다 너무 쉽게 생각했습니다. 첫 번째 생각: 멀티 에이전트에는 그래프 엔진 (graph engine), 플래너 (planner), 메모리 저장소 (memory store)가 필요할 것이다. 두 번째 생각 (LangGraph를 한 분기 동안 사용한 후): 서브 에이전트(sub-agent)별로 명시적인 도구 허용 목록 (tool allow-lists)을 가진 오케스트레이터 (orchestrator)만 있으면 된다. 세 번째 생각 (연쇄 장애 모드 (cascading failure mode)를 겪은 후): 그것도 필요하지만, 요청당 에이전트 간 호출 (agent-to-agent calls)에 대한 엄격한 상한선 (hard cap)이 필요하다. 그렇지 않으면 연쇄 반응이 발생한다. 올바른 모델은 "에이전트들이 알아서 하게 두는 것"이 아니라, 명시적이고(explicit), 제한적이며(bounded), 관찰 가능한(observable) 모델입니다.

엔터프라이즈 규모에서의 흥미로운 AI 안전(AI safety) 논의는 모델 정렬(model alignment)에 관한 것이 아닙니다. 그것은 귀하의 AI 에이전트가 나머지 프로덕션 시스템(production systems)과 동일한 운영 규율(operational discipline)의 적용을 받는지, 그리고 귀하의 플랫폼 팀이 그 기준을 유지할 수 있는 인력을 갖추고 있는지에 관한 것입니다. 모델은 ID(identity), 감사(audit), 관찰 가능성(observability), 변경 관리(change management), 그리고 인간의 승인 게이트(human approval gates)를 포함하는 시스템 내의 한 가지 구성 요소일 뿐입니다. 이 요소들을 올바르게 설정하면 모델은 어느 정도 책임감 있게 동작합니다. 이 요소들을 잘못 설정하면 그 어떤 모델도 충분히 책임감 있게 동작하지 않습니다.

이것은 모델의 문제가 아닙니다. 플랫폼의 문제입니다.

엔터프라이즈 AI 에이전트를 위한 가드레일 — 실제 운영 환경에서 핵심적인 요소는 무엇인가

요약

핵심 포인트

Fortune 100 기업에서 2년간 프로덕션 에이전트를 구축하며 얻은 현장 기록

계층화된 가드레일 스택

내가 실수했던 것들

댓글