본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 27. 18:12

Google의 Agent Executor 내부 살펴보기: 프로덕션 AI 에이전트를 위한 오픈 런타임

요약

Google의 Agent Executor는 프로토타입을 넘어 프로덕션 환경에서 안정적으로 작동하는 AI 에이전트를 위한 오픈 런타임입니다. 장기 실행 상태 유지, 거버넌스, 보안 및 관측 가능성을 제공하여 기업용 에이전트 운영(Agent Ops) 문제를 해결합니다.

핵심 포인트

  • 프로덕션 에이전트의 핵심인 상태 유지 및 거버넌스 문제 해결
  • 최대 7일간의 장기 실행 상태 유지 기능 제공
  • 보안, 확장성, 관측 가능성을 포함한 Agent Ops 프레임워크 구축
  • Google Gemini Enterprise Agent Platform과 호환되는 오픈 소스 런타임

원래 CoreProse KB-incidents에 게시되었습니다.

대부분의 에이전트 프레임워크 (Agent Frameworks)는 데모에는 뛰어나지만, 기업의 서비스 수준 목표 (SLOs) 하에서 상태 유지형 (Stateful) 도구 호출 에이전트 (Tool-calling Agents)를 24시간 내내 실행하는 데는 적합하지 않습니다. 프로덕션에서의 실패는 대개 프로토타입에서는 나타나지 않았던 환각 (Hallucinations), 개인정보 (PII) 유출, 그리고 행동 드리프트 (Behavioral Drift)에서 발생합니다. [1]

Google의 Gemini Enterprise Agent Platform, Agent Runtime, 그리고 Agent Governance Stack은 이러한 문제들, 즉 장기 실행 상태 (Long-running state), 플릿 거버넌스 (Fleet governance), 그리고 노트북 환경이 아닌 마이크로서비스 자산에 적합한 보안 문제를 직접적으로 해결합니다. [10]

이 스택과 정렬된 오픈 소스 "Agent Executor"는 팀들에게 도구, 상태, 거버넌스 훅 (Governance hooks), 그리고 관측 가능성 (Observability)을 위한 공유 런타임 (Runtime)을 제공하여, 프로젝트마다 에이전트 운영 (Agent Ops)을 처음부터 다시 구축하지 않도록 해줄 것입니다. [3][5]

1. 프로덕션 AI 에이전트에 전용 실행 런타임 (Executor Runtime)이 필요한 이유

대부분의 오픈 프레임워크는 다음 사항에 최적화되어 있습니다:

  • 신속한 프로토타이핑 (Rapid prototyping)
  • 단순한 도구 체인 (Simple tool chains)
  • 빠른 UI 연결 (Quick UI wiring)

프로덕션 환경에서 에이전트는 기본적인 오케스트레이션 (Orchestration)을 넘어 강력한 테스트와 런타임 가드레일 (Runtime guardrails)을 추가하지 않으면 실패합니다. [1][5]

에이전트가 고객에게 직접 노출되면, 팀은 다음 사항들을 처리해야 합니다:

  • SLO, 인시던트 (Incidents), 그리고 온콜 (On-call)
  • 확장 (Scaling), 캐싱 (Caching), 속도 제한 (Rate limits), 토큰 예산 (Token budgets)
  • IAM, 비밀 정보 (Secrets), 네트워크 경계 (Network boundaries)
  • 롤백 (Rollbacks), 실험 (Experiments), 그리고 변경 제어 (Change control) [4]

이러한 운영 규율인 에이전트 운영 (Agent Ops)은 API 호출, 검색 (Retrieval), 그리고 다양한 실패 모드를 가진 다단계 워크플로 (Multi-step workflows)를 수행하는 상태 유지형 LLM 기반 서비스를 둘러싸고 있습니다. [4]

Google의 Gemini Enterprise Agent Platform은 다음과 같은 기능으로 이를 반영합니다:

  • 장기 실행 에이전트 런타임 (Agent Runtime) (최대 7일간의 상태 유지)
  • ID, 레지스트리 (Registry), 그리고 정책을 위한 Agent Governance Stack
  • 코드 우선 오케스트레이션 (Code-first orchestration), 도구, 그리고 데이터 액세스 (예: Sales Intelligence Agent) [10][11]

오픈 소스 Agent Executor는 이러한 패턴들을 조합 가능한 런타임 (composable runtime)으로 인코딩하여, Google의 "프로토타입에서 엔터프라이즈로 (prototype to enterprise)" 가이드라인에 부합할 것입니다. [3][10]

2. Google 스타일 Agent Executor 런타임의 핵심 아키텍처

신뢰할 수 있는 에이전트 스택은 모델 (models), 오케스트레이션 (orchestration), 메모리 (memory), 도구 (tools), 그리고 관찰 가능성 (observability)을 정렬해야 합니다. [5] 어느 계층에서든 설계 오류가 발생하면 지연 시간 급증 (latency spikes), 워크플로 중단, 또는 불투명한 에러가 발생합니다.

Google 스타일의 Agent Executor는 다음을 조정합니다:

  • 모델 계층 (Model layer): Gemini API, 라우팅/폴백 (routing/fallback), 비용 인식 선택 (cost-aware selection)
  • 오케스트레이션 (Orchestration): 계획 루프 (planning loops), 분기 (branching), 재시도 (retries) (LangGraph 또는 ADK와 유사한 방식) [5][11]
  • 메모리 및 검색 (Memory & retrieval): 히스토리 (history), RAG, 지속 가능한 상태 (durable state)
  • 도구/액션 (Tools/actions): IAM 및 속도 제한 (rate limits)이 적용된 타입 지정 API (typed APIs) [4][5]
  • 관찰 가능성 (Observability): 트레이스 (traces), 메트릭 (metrics), 로그 (logs), 평가 훅 (evaluation hooks) [2][8]

계층 간의 안정적인 계약 (stable contracts)을 통해 팀은 에이전트 로직을 다시 작성하지 않고도 백엔드를 교체할 수 있습니다.

장기 실행 에이전트 및 체크포인팅 (Long-running agents and checkpointing)

Agent Runtime은 체크포인트 및 재개 (checkpoint-and-resume) 방식을 사용하여, 실패나 사람의 승인이 발생하더라도 전체 재계산 (full recomputation)을 트리거하지 않고 며칠 동안 상태가 유지되는 워크플로를 지원합니다. [10]

def run_step(session_id, input_event):
    state = load_state(session_id)
    plan = planner.step(state, input_event)
...

계산 자원을 전혀 소모하지 않으면서 사람의 승인을 위해 에이전트가 일시 중지되는 위임된 승인 (delegated approvals)과 같은 패턴은 임시방편적인 접착제 (ad-hoc glue)가 아닌, 일급 API (first-class APIs)로 제공되어야 합니다. [10]

자기 개선형 메모리 (Self-improving memory)

고급 스택은 다음을 사용하여 단순한 컨텍스트 윈도우 (context windows)를 넘어섭니다: [2]

  • 의미론적 회상 (semantic recall)을 위한 벡터 검색 (Vector search)
  • 관계를 위한 그래프 데이터베이스 (Graph databases)
  • 통찰력을 추출하고 충돌을 해결하기 위한 백그라운드 작업 (Background jobs)

Executor는 다음을 제공해야 합니다:

  • 플러그 가능한 벡터 + 그래프 백엔드 (Pluggable vector + graph backends)
  • 내장된 충돌 해결 전략 (Built-in conflict resolution strategies)
  • 상호작용 로그로부터의 자동 통찰력 추출 (Automatic insight extraction from interaction logs) [2]

프레임워크 및 프로토콜 간의 오케스트레이션 (Orchestration across frameworks and protocols)

현대적인 시스템은 다음을 혼합합니다:

  • LangGraph 그래프
  • A2A 멀티 에이전트 프로토콜 (A2A multi-agent protocols)
  • MCP 기반 도구 (MCP-based tools) [2]

런타임은 이러한 요소들을 통합하여 계획 루프 (planning loops)와 도구 호출 (tool calls)을 조정해야 합니다. Go 언어와 ADK를 사용하는 Google의 코드 우선 (code-first) 멀티 에이전트 패턴은 재사용 가능한 라이프사이클 훅 (lifecycle hooks), 도구 스키마 (tool schemas), 그리고 라우팅 (routing)으로 일반화될 수 있습니다. [11]

여기서 Executor는 이기종 프레임워크들이 하나의 작동 가능한 시스템처럼 동작하게 만드는 계약 (contract) 역할을 합니다. [2][5]

3. 보안, 거버넌스 및 관측 가능성 (Security, Governance, and Observability)을 핵심 고려 사항으로

대부분의 심각한 사고는 다음과 같은 경우에 발생합니다:

  • 프롬프트 인젝션 (Prompt injection)
  • 데이터 유출 (Data exfiltration)
  • 개인정보 (PII) 노출 [1]

악의적인 입력이나 도구가 활성화되면 정적인 정책 문서는 무용지물이 됩니다. 따라서 런타임 자체가 방어 기제를 강제해야 합니다.

격리 및 샌드박싱 (Isolation and sandboxing)

Google의 GKE Agent Sandbox는 gVisor를 사용하여 각 에이전트를 1초 미만의 콜드 스타트 (cold starts)를 가진 강화된 요청별 샌드박스에서 실행합니다. [7] 견고한 Executor는 다음과 같은 기능을 통합해야 합니다:

  • 세션별 샌드박스 (Kubernetes/gVisor 유사 방식) [7]
  • 도구 및 데이터를 위한 세밀한 IAM (Identity and Access Management) [10]
  • 비밀 관리 (Secrets management) 및 범위가 지정된 자격 증명 (scoped credentials) [4]

가드레일 (Guardrails) 및 적대적 테스트 (adversarial testing)

프로덕션 에이전트는 요청 파이프라인에 연결된 능동적인 방어 체계가 필요합니다. 예시는 다음과 같습니다: [2][9]

  • 입력/출력/도구 가드레일을 위한 LlamaFirewall
  • 승인 절차가 포함된 OAuth2 보호 도구를 위한 Arcade
  • CI 및 라이브 트래픽에서의 적대적 프롬프트 인젝션 테스트를 위한 Apex

모든 요청은 Executor가 관리하는 표준 가드레일 체인을 통과해야 합니다. [2]

로그를 넘어선 관측 가능성 (Observability beyond logs)

에이전트 모니터링에는 추론 수준의 가시성 (reasoning-level visibility)이 필요합니다: [8]

  • 결정 추적 (Decision traces) 및 근거 (rationales)
  • 도구 호출 및 파라미터 (parameters)
  • 시간에 따른 행동 지표 (Behavioral metrics)

LangSmith 및 IntellAgent와 같은 플랫폼은 이미 드리프트 (drift)를 감지하기 위해 추적과 행동을 캡처하고 있습니다. [2][8] 예를 들어, 한 팀은 지원 에이전트가 과도한 할인을 제공하는 것을 발견했습니다. 추적 결과, 오래된 영업 플레이북 (sales playbooks)에 과도한 가중치를 두도록 변경된 검색 설정 (retrieval config)이 원인임을 밝혀냈습니다. 모니터링을 통해 몇 시간 내에 문제가 표면화되었습니다. [2][8]

Google의 Agent Governance Stack은 다음과 같은 기능을 추가합니다: [10][9]

  • 함대 정책 (Fleet policies) 및 에이전트 ID (agent identities)
  • 통합 보안 대시보드 (Unified security dashboards)
  • 감사 (Audits), 이상 탐지 (anomaly detection) 및 책임감 있는 AI 가드레일 (Responsible AI guardrails)

진정한 Executor에서 보안과 관찰 가능성 (observability)은 선택 사항이 아니라 런타임 (runtime)의 중추를 형성합니다. [1][2][10]

4. 성능, 비용 관리 및 인프라 통합

에이전트 운영 (Agent Ops)은 인프라 (infra) 및 FinOps와 직접적으로 교차합니다: [4]

  • 클러스터 전반의 확장 (Scaling across clusters)
  • 속도 제한 (Rate-limit) 처리
  • 토큰 (Token) 및 컴퓨팅 비용 제어

이러한 요소들은 에이전트마다 새로 만드는 대신 런타임 내에서 표준화되어야 합니다.

인프라 인지형 런타임 (Infra-aware runtime)

전형적인 프로덕션 환경은 이미 다음을 사용하고 있습니다: [4]

  • 컨테이너를 위한 ECS 또는 Kubernetes/GKE
  • 캐시 및 임베딩 (embeddings)을 위한 Redis
  • 검색/벡터를 위한 OpenSearch 또는 Postgres
  • 세션 메모리 (session memory)를 위한 DynamoDB (또는 유사 서비스)

Executor는 기존의 Redis/Postgres/OpenSearch/Dynamo 스택이 별도의 커스텀 연결 코드 없이도 플러그인될 수 있도록 스토리지 인터페이스를 노출해야 합니다. [4][5]

GKE 에이전트 샌드박스 (GKE Agent Sandbox)는 gVisor 격리가 1초 미만의 콜드 스타트 (cold starts)와 공존함을 보여주며, 지연 시간에 민감한 워크로드를 위해 요청당 샌드박스를 사용할 수 있게 합니다. [7]

배포 패턴 (Deployment patterns)

현실적인 배포에는 다음이 포함됩니다: [2]

  • Docker + FastAPI 서비스
  • Runpod에서의 GPU 확장 (scaling)
  • Ollama를 통한 온프레미스 (On-prem) 추론
  • AWS Bedrock AgentCore (인프라 + 트래킹)를 통한 관리형 실행

Google 지향적인 Executor는 다음을 표준화할 수 있습니다: [10]

  • 요청 트래킹 (Request tracking) 및 상관관계 ID (correlation IDs)
  • 지연 시간 히스토그램 (Latency histograms) 및 SLO (서비스 수준 목표)
  • 사용자, 에이전트 또는 도구별 비용 귀속 (Cost attribution)

비용 및 신뢰성 트레이드오프 (trade-offs)

재귀적 도구 (recursive tools)나 거대한 컨텍스트 (huge contexts)와 같은 설정 오류는 다음과 같은 문제를 일으킬 수 있습니다: [5][9]

  • 토큰 비용의 폭증
  • 타임아웃 및 취약한 워크플로 유발

풀스택 Executor는 다음을 강제할 수 있습니다: [4][5]

  • 글로벌 토큰 및 API 예산
  • 도구별 동시성 (concurrency) 및 백오프 (backoff)
  • SLO 인지형 성능 저하 (SLO-aware degradation) (더 저렴한 모델 사용, 비핵심 도구 건너뛰기)

성능과 비용은 인프라와의 런타임 계약의 일부가 됩니다. [4][7][10]

5. 구현 로드맵 및 생태계 포지셔닝

대부분의 프레임워크는 여전히 얕은 보안, 취약한 컴플라이언스 매핑(compliance mapping), 그리고 최소한의 관찰성(observability)만을 제공하며, 이로 인해 기업들은 자체적인 가드레일(guardrails)을 별도로 구축해야 하는 상황에 처해 있습니다. [1] 오픈 소스 Agent Executor는 이러한 프레임워크들이 연결될 수 있는 프로덕션의 중추(backbone) 역할을 할 수 있습니다.

레퍼런스 스택에서 런타임으로

자기 개선형 메모리(self-improving memory), 적대적 테스트(adversarial testing), 다중 환경 배포(multi-environment deploys)를 포함하는 포괄적인 프로덕션 스택은 이미 레퍼런스 튜토리얼로 존재합니다. [2] Executor는 이를 다음과 같이 통합할 수 있습니다:

  • 표준 라이프사이클 (계획(plan) → 실행(act) → 관찰(observe) → 평가(evaluate))
  • 내장된 평가 및 행동 테스트(behavioral tests)
  • 보안 및 거버넌스(governance) 서비스를 위한 퍼스트 클래스 훅(first-class hooks) [2][3]

Google의 프로토타입에서 프로덕션으로의 가이드(prototype-to-production guide)는 평가, 거버넌스, 그리고 Gemini 통합을 핵심 요소로 지목하고 있으며, 이는 Executor의 기능과 직접적으로 매핑됩니다. [3][10]

전문가의 관행을 코드화하기

전문 AI 에이전트 기업들은 반복적으로 다음과 같은 사항들을 구현합니다: [6]

  • 추론 루프(reasoning loops) 및 멀티 에이전트 패턴(multi-agent patterns)
  • 메모리 계층 구조(memory hierarchies) 및 검증 레이어(validation layers)
  • 권한 모델(permission models) 및 평가 훅(evaluation hooks)

이러한 요소들을 프리미티브(primitives)로 인코딩하면, 규모가 작은 팀들도 이를 재발명할 필요 없이 혜택을 누릴 수 있습니다.

프로덕션 중심의 문헌들은 다음을 강조합니다: [5][9][11]

  • 멀티 에이전트 오케스트레이션(multi-agent orchestration)
  • 확장 가능한 메모리 아키텍처(scalable memory architectures)
  • 프레임워크 트레이드오프(framework trade-offs) (LangChain 대 LangGraph)
  • 실제 배포에서의 비용 최적화 및 가드레일(guardrails)

스타트업을 위한 Google의 4단계 프레임워크는 단일 에이전트 워크플로우로 시작하여, 성숙도가 높아짐에 따라 멀티 에이전트 패턴을 도입할 것을 권장합니다. [3][10] 이 경로와 일치하는 오픈 Agent Executor는 오늘날의 프로토타입 중심 생태계를 견고하고, 거버넌스가 적용되며, 관찰 가능한 에이전트가 기본값이 되는 생태계로 전환할 수 있습니다.

About CoreProse: 검증된 인용을 포함한 연구 우선 방식의 AI 콘텐츠 생성. 환각(hallucinations) 제로.

🔗 CoreProse 사용해보기 | 📚 더 많은 KB 사례 보기

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0