Google의 Agent Executor 내부 살펴보기: 프로덕션 AI 에이전트를 위한 오픈 런타임

원래 CoreProse KB-incidents에 게시되었습니다.

대부분의 에이전트 프레임워크 (Agent Frameworks)는 데모에는 뛰어나지만, 기업의 서비스 수준 목표 (SLOs) 하에서 상태 유지형 (Stateful) 도구 호출 에이전트 (Tool-calling Agents)를 24시간 내내 실행하는 데는 적합하지 않습니다. 프로덕션에서의 실패는 대개 프로토타입에서는 나타나지 않았던 환각 (Hallucinations), 개인정보 (PII) 유출, 그리고 행동 드리프트 (Behavioral Drift)에서 발생합니다. [1]

Google의 Gemini Enterprise Agent Platform, Agent Runtime, 그리고 Agent Governance Stack은 이러한 문제들, 즉 장기 실행 상태 (Long-running state), 플릿 거버넌스 (Fleet governance), 그리고 노트북 환경이 아닌 마이크로서비스 자산에 적합한 보안 문제를 직접적으로 해결합니다. [10]

이 스택과 정렬된 오픈 소스 "Agent Executor"는 팀들에게 도구, 상태, 거버넌스 훅 (Governance hooks), 그리고 관측 가능성 (Observability)을 위한 공유 런타임 (Runtime)을 제공하여, 프로젝트마다 에이전트 운영 (Agent Ops)을 처음부터 다시 구축하지 않도록 해줄 것입니다. [3][5]

1. 프로덕션 AI 에이전트에 전용 실행 런타임 (Executor Runtime)이 필요한 이유

대부분의 오픈 프레임워크는 다음 사항에 최적화되어 있습니다:

신속한 프로토타이핑 (Rapid prototyping)
단순한 도구 체인 (Simple tool chains)
빠른 UI 연결 (Quick UI wiring)

프로덕션 환경에서 에이전트는 기본적인 오케스트레이션 (Orchestration)을 넘어 강력한 테스트와 런타임 가드레일 (Runtime guardrails)을 추가하지 않으면 실패합니다. [1][5]

에이전트가 고객에게 직접 노출되면, 팀은 다음 사항들을 처리해야 합니다:

SLO, 인시던트 (Incidents), 그리고 온콜 (On-call)
확장 (Scaling), 캐싱 (Caching), 속도 제한 (Rate limits), 토큰 예산 (Token budgets)
IAM, 비밀 정보 (Secrets), 네트워크 경계 (Network boundaries)
롤백 (Rollbacks), 실험 (Experiments), 그리고 변경 제어 (Change control) [4]

이러한 운영 규율인 에이전트 운영 (Agent Ops)은 API 호출, 검색 (Retrieval), 그리고 다양한 실패 모드를 가진 다단계 워크플로 (Multi-step workflows)를 수행하는 상태 유지형 LLM 기반 서비스를 둘러싸고 있습니다. [4]

Google의 Gemini Enterprise Agent Platform은 다음과 같은 기능으로 이를 반영합니다:

장기 실행 에이전트 런타임 (Agent Runtime) (최대 7일간의 상태 유지)
ID, 레지스트리 (Registry), 그리고 정책을 위한 Agent Governance Stack
코드 우선 오케스트레이션 (Code-first orchestration), 도구, 그리고 데이터 액세스 (예: Sales Intelligence Agent) [10][11]

오픈 소스 Agent Executor는 이러한 패턴들을 조합 가능한 런타임 (composable runtime)으로 인코딩하여, Google의 "프로토타입에서 엔터프라이즈로 (prototype to enterprise)" 가이드라인에 부합할 것입니다. [3][10]

2. Google 스타일 Agent Executor 런타임의 핵심 아키텍처

신뢰할 수 있는 에이전트 스택은 모델 (models), 오케스트레이션 (orchestration), 메모리 (memory), 도구 (tools), 그리고 관찰 가능성 (observability)을 정렬해야 합니다. [5] 어느 계층에서든 설계 오류가 발생하면 지연 시간 급증 (latency spikes), 워크플로 중단, 또는 불투명한 에러가 발생합니다.

Google 스타일의 Agent Executor는 다음을 조정합니다:

모델 계층 (Model layer): Gemini API, 라우팅/폴백 (routing/fallback), 비용 인식 선택 (cost-aware selection)
오케스트레이션 (Orchestration): 계획 루프 (planning loops), 분기 (branching), 재시도 (retries) (LangGraph 또는 ADK와 유사한 방식) [5][11]
메모리 및 검색 (Memory & retrieval): 히스토리 (history), RAG, 지속 가능한 상태 (durable state)
도구/액션 (Tools/actions): IAM 및 속도 제한 (rate limits)이 적용된 타입 지정 API (typed APIs) [4][5]
관찰 가능성 (Observability): 트레이스 (traces), 메트릭 (metrics), 로그 (logs), 평가 훅 (evaluation hooks) [2][8]

계층 간의 안정적인 계약 (stable contracts)을 통해 팀은 에이전트 로직을 다시 작성하지 않고도 백엔드를 교체할 수 있습니다.

장기 실행 에이전트 및 체크포인팅 (Long-running agents and checkpointing)

Agent Runtime은 체크포인트 및 재개 (checkpoint-and-resume) 방식을 사용하여, 실패나 사람의 승인이 발생하더라도 전체 재계산 (full recomputation)을 트리거하지 않고 며칠 동안 상태가 유지되는 워크플로를 지원합니다. [10]

def run_step(session_id, input_event):
    state = load_state(session_id)
    plan = planner.step(state, input_event)
...

계산 자원을 전혀 소모하지 않으면서 사람의 승인을 위해 에이전트가 일시 중지되는 위임된 승인 (delegated approvals)과 같은 패턴은 임시방편적인 접착제 (ad-hoc glue)가 아닌, 일급 API (first-class APIs)로 제공되어야 합니다. [10]

자기 개선형 메모리 (Self-improving memory)

고급 스택은 다음을 사용하여 단순한 컨텍스트 윈도우 (context windows)를 넘어섭니다: [2]

의미론적 회상 (semantic recall)을 위한 벡터 검색 (Vector search)
관계를 위한 그래프 데이터베이스 (Graph databases)
통찰력을 추출하고 충돌을 해결하기 위한 백그라운드 작업 (Background jobs)

Executor는 다음을 제공해야 합니다:

플러그 가능한 벡터 + 그래프 백엔드 (Pluggable vector + graph backends)
내장된 충돌 해결 전략 (Built-in conflict resolution strategies)
상호작용 로그로부터의 자동 통찰력 추출 (Automatic insight extraction from interaction logs) [2]

프레임워크 및 프로토콜 간의 오케스트레이션 (Orchestration across frameworks and protocols)

현대적인 시스템은 다음을 혼합합니다:

LangGraph 그래프
A2A 멀티 에이전트 프로토콜 (A2A multi-agent protocols)
MCP 기반 도구 (MCP-based tools) [2]

런타임은 이러한 요소들을 통합하여 계획 루프 (planning loops)와 도구 호출 (tool calls)을 조정해야 합니다. Go 언어와 ADK를 사용하는 Google의 코드 우선 (code-first) 멀티 에이전트 패턴은 재사용 가능한 라이프사이클 훅 (lifecycle hooks), 도구 스키마 (tool schemas), 그리고 라우팅 (routing)으로 일반화될 수 있습니다. [11]

여기서 Executor는 이기종 프레임워크들이 하나의 작동 가능한 시스템처럼 동작하게 만드는 계약 (contract) 역할을 합니다. [2][5]

3. 보안, 거버넌스 및 관측 가능성 (Security, Governance, and Observability)을 핵심 고려 사항으로

대부분의 심각한 사고는 다음과 같은 경우에 발생합니다:

프롬프트 인젝션 (Prompt injection)
데이터 유출 (Data exfiltration)
개인정보 (PII) 노출 [1]

악의적인 입력이나 도구가 활성화되면 정적인 정책 문서는 무용지물이 됩니다. 따라서 런타임 자체가 방어 기제를 강제해야 합니다.

격리 및 샌드박싱 (Isolation and sandboxing)

Google의 GKE Agent Sandbox는 gVisor를 사용하여 각 에이전트를 1초 미만의 콜드 스타트 (cold starts)를 가진 강화된 요청별 샌드박스에서 실행합니다. [7] 견고한 Executor는 다음과 같은 기능을 통합해야 합니다:

세션별 샌드박스 (Kubernetes/gVisor 유사 방식) [7]
도구 및 데이터를 위한 세밀한 IAM (Identity and Access Management) [10]
비밀 관리 (Secrets management) 및 범위가 지정된 자격 증명 (scoped credentials) [4]

가드레일 (Guardrails) 및 적대적 테스트 (adversarial testing)

프로덕션 에이전트는 요청 파이프라인에 연결된 능동적인 방어 체계가 필요합니다. 예시는 다음과 같습니다: [2][9]

입력/출력/도구 가드레일을 위한 LlamaFirewall
승인 절차가 포함된 OAuth2 보호 도구를 위한 Arcade
CI 및 라이브 트래픽에서의 적대적 프롬프트 인젝션 테스트를 위한 Apex

모든 요청은 Executor가 관리하는 표준 가드레일 체인을 통과해야 합니다. [2]

로그를 넘어선 관측 가능성 (Observability beyond logs)

에이전트 모니터링에는 추론 수준의 가시성 (reasoning-level visibility)이 필요합니다: [8]

결정 추적 (Decision traces) 및 근거 (rationales)
도구 호출 및 파라미터 (parameters)
시간에 따른 행동 지표 (Behavioral metrics)

LangSmith 및 IntellAgent와 같은 플랫폼은 이미 드리프트 (drift)를 감지하기 위해 추적과 행동을 캡처하고 있습니다. [2][8] 예를 들어, 한 팀은 지원 에이전트가 과도한 할인을 제공하는 것을 발견했습니다. 추적 결과, 오래된 영업 플레이북 (sales playbooks)에 과도한 가중치를 두도록 변경된 검색 설정 (retrieval config)이 원인임을 밝혀냈습니다. 모니터링을 통해 몇 시간 내에 문제가 표면화되었습니다. [2][8]

Google의 Agent Governance Stack은 다음과 같은 기능을 추가합니다: [10][9]

함대 정책 (Fleet policies) 및 에이전트 ID (agent identities)
통합 보안 대시보드 (Unified security dashboards)
감사 (Audits), 이상 탐지 (anomaly detection) 및 책임감 있는 AI 가드레일 (Responsible AI guardrails)

진정한 Executor에서 보안과 관찰 가능성 (observability)은 선택 사항이 아니라 런타임 (runtime)의 중추를 형성합니다. [1][2][10]

4. 성능, 비용 관리 및 인프라 통합

에이전트 운영 (Agent Ops)은 인프라 (infra) 및 FinOps와 직접적으로 교차합니다: [4]

클러스터 전반의 확장 (Scaling across clusters)
속도 제한 (Rate-limit) 처리
토큰 (Token) 및 컴퓨팅 비용 제어

이러한 요소들은 에이전트마다 새로 만드는 대신 런타임 내에서 표준화되어야 합니다.

인프라 인지형 런타임 (Infra-aware runtime)

전형적인 프로덕션 환경은 이미 다음을 사용하고 있습니다: [4]

컨테이너를 위한 ECS 또는 Kubernetes/GKE
캐시 및 임베딩 (embeddings)을 위한 Redis
검색/벡터를 위한 OpenSearch 또는 Postgres
세션 메모리 (session memory)를 위한 DynamoDB (또는 유사 서비스)

Executor는 기존의 Redis/Postgres/OpenSearch/Dynamo 스택이 별도의 커스텀 연결 코드 없이도 플러그인될 수 있도록 스토리지 인터페이스를 노출해야 합니다. [4][5]

GKE 에이전트 샌드박스 (GKE Agent Sandbox)는 gVisor 격리가 1초 미만의 콜드 스타트 (cold starts)와 공존함을 보여주며, 지연 시간에 민감한 워크로드를 위해 요청당 샌드박스를 사용할 수 있게 합니다. [7]

배포 패턴 (Deployment patterns)

현실적인 배포에는 다음이 포함됩니다: [2]

Docker + FastAPI 서비스
Runpod에서의 GPU 확장 (scaling)
Ollama를 통한 온프레미스 (On-prem) 추론
AWS Bedrock AgentCore (인프라 + 트래킹)를 통한 관리형 실행

Google 지향적인 Executor는 다음을 표준화할 수 있습니다: [10]

요청 트래킹 (Request tracking) 및 상관관계 ID (correlation IDs)
지연 시간 히스토그램 (Latency histograms) 및 SLO (서비스 수준 목표)
사용자, 에이전트 또는 도구별 비용 귀속 (Cost attribution)

비용 및 신뢰성 트레이드오프 (trade-offs)

재귀적 도구 (recursive tools)나 거대한 컨텍스트 (huge contexts)와 같은 설정 오류는 다음과 같은 문제를 일으킬 수 있습니다: [5][9]

토큰 비용의 폭증
타임아웃 및 취약한 워크플로 유발

풀스택 Executor는 다음을 강제할 수 있습니다: [4][5]

글로벌 토큰 및 API 예산
도구별 동시성 (concurrency) 및 백오프 (backoff)
SLO 인지형 성능 저하 (SLO-aware degradation) (더 저렴한 모델 사용, 비핵심 도구 건너뛰기)

성능과 비용은 인프라와의 런타임 계약의 일부가 됩니다. [4][7][10]

5. 구현 로드맵 및 생태계 포지셔닝

대부분의 프레임워크는 여전히 얕은 보안, 취약한 컴플라이언스 매핑(compliance mapping), 그리고 최소한의 관찰성(observability)만을 제공하며, 이로 인해 기업들은 자체적인 가드레일(guardrails)을 별도로 구축해야 하는 상황에 처해 있습니다. [1] 오픈 소스 Agent Executor는 이러한 프레임워크들이 연결될 수 있는 프로덕션의 중추(backbone) 역할을 할 수 있습니다.

레퍼런스 스택에서 런타임으로

자기 개선형 메모리(self-improving memory), 적대적 테스트(adversarial testing), 다중 환경 배포(multi-environment deploys)를 포함하는 포괄적인 프로덕션 스택은 이미 레퍼런스 튜토리얼로 존재합니다. [2] Executor는 이를 다음과 같이 통합할 수 있습니다:

표준 라이프사이클 (계획(plan) → 실행(act) → 관찰(observe) → 평가(evaluate))
내장된 평가 및 행동 테스트(behavioral tests)
보안 및 거버넌스(governance) 서비스를 위한 퍼스트 클래스 훅(first-class hooks) [2][3]

Google의 프로토타입에서 프로덕션으로의 가이드(prototype-to-production guide)는 평가, 거버넌스, 그리고 Gemini 통합을 핵심 요소로 지목하고 있으며, 이는 Executor의 기능과 직접적으로 매핑됩니다. [3][10]

전문가의 관행을 코드화하기

전문 AI 에이전트 기업들은 반복적으로 다음과 같은 사항들을 구현합니다: [6]

추론 루프(reasoning loops) 및 멀티 에이전트 패턴(multi-agent patterns)
메모리 계층 구조(memory hierarchies) 및 검증 레이어(validation layers)
권한 모델(permission models) 및 평가 훅(evaluation hooks)

이러한 요소들을 프리미티브(primitives)로 인코딩하면, 규모가 작은 팀들도 이를 재발명할 필요 없이 혜택을 누릴 수 있습니다.

프로덕션 중심의 문헌들은 다음을 강조합니다: [5][9][11]

멀티 에이전트 오케스트레이션(multi-agent orchestration)
확장 가능한 메모리 아키텍처(scalable memory architectures)
프레임워크 트레이드오프(framework trade-offs) (LangChain 대 LangGraph)
실제 배포에서의 비용 최적화 및 가드레일(guardrails)

스타트업을 위한 Google의 4단계 프레임워크는 단일 에이전트 워크플로우로 시작하여, 성숙도가 높아짐에 따라 멀티 에이전트 패턴을 도입할 것을 권장합니다. [3][10] 이 경로와 일치하는 오픈 Agent Executor는 오늘날의 프로토타입 중심 생태계를 견고하고, 거버넌스가 적용되며, 관찰 가능한 에이전트가 기본값이 되는 생태계로 전환할 수 있습니다.

About CoreProse: 검증된 인용을 포함한 연구 우선 방식의 AI 콘텐츠 생성. 환각(hallucinations) 제로.

🔗 CoreProse 사용해보기 | 📚 더 많은 KB 사례 보기