본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 02. 23:34

AI를 위한 Kubernetes 네이티브 레이어: Google의 Agent eXecutor (AX) 오픈 소스 공개

요약

Google이 Kubernetes 네이티브 분산 런타임인 Agent eXecutor(AX)를 오픈 소스로 공개했습니다. AX는 장기 실행되는 AI 에이전트 워크로드를 위해 상태 유지, 격리, 확장성을 제공하며 프로덕션 환경의 신뢰성을 보장합니다.

핵심 포인트

  • Kubernetes 네이티브 분산 런타임 표준 제공
  • 이벤트 로그 및 스냅샷을 통한 내구성 있는 실행 및 재개
  • 네트워크 중단 시에도 연결을 복구하는 재개 가능한 스트림 지원
  • LLM 호출 중복 방지 및 상태 드리프트 문제 해결

AI 생태계는 일시적이고 단발적인 챗봇에서, 몇 시간, 며칠 또는 몇 주 동안 복잡한 작업을 수행하는 자율적이고 분산된 소프트웨어 에이전트로 빠르게 변화하고 있습니다. 사이트 신뢰성 엔지니어 (SREs)와 플랫폼 아키텍트들에게 이러한 변화는 상태 드리프트 (state drift), 네트워크 중단, 신뢰할 수 없는 코드 실행, 관리 불가능한 인프라 비용과 같은 거대한 과제를 안겨줍니다.

이러한 프로덕션 준비성 (production readiness) 격차를 해소하기 위해, Google은 **Agent eXecutor (AX)**를 **Apache 2.0 라이선스**로 오픈 소스화했습니다. Go 언어로 작성된 AX는 기업용 데이터 플레인 (data planes) 전반에서 장기 실행되는 에이전트 워크로드를 스케줄링, 격리, 지속 및 확장하기 위해 특별히 구축된 Kubernetes 네이티브 (Kubernetes-native) 분산 런타임 (runtime) 표준입니다.

다음은 AX의 아키텍처에 대한 심층 분석과 왜 이것이 프로덕션급 AI를 위한 인프라 청사진을 나타내는지에 대한 내용입니다.

1. 핵심 아키텍처: 내구성 있는 실행 및 재개 (Durable Execution and Resumption)

기존의 오케스트레이션 (orchestration) 프레임워크는 에이전트 로직을 프로토타이핑하는 데는 뛰어나지만, 실제 인프라 장애 상황에서는 실패하는 경우가 많습니다. 작업 도중 컨테이너가 재시작되거나 네트워크 타임아웃이 발생하면 에이전트의 상태가 손실됩니다.

AX는 에이전트를 상태 유지형 (stateful)이며 탄력적인 마이크로서비스 (microservices)로 취급합니다. AX는 두 가지 아키텍처 기둥을 통해 즉각적인 내구성 (durability)을 제공합니다:

                  ┌──────────────────────────────┐
                  │          AX Router           │
                  └──────────────┬───────────────┘
...

이벤트 로그 및 스냅샷 (The Event Log & Snapshotting)

AX는 모든 컨텍스트 수정, 도구 호출(tool calls), 그리고 LLM 완료(completions)를 가로채어 **Single-Writer 아키텍처 (Single-Writer architecture)**에 의해 관리되는 고처리량의 **내구성이 있는 이벤트 로그 (durable event log)**에 기록합니다. 만약 에이전트가 충돌하거나 Kubernetes에 의해 스케줄링이 해제(descheduled)되더라도, 새로운 워커(worker)가 실행되어 이벤트 로그를 재생(replay)함으로써, 비용이 많이 드는 LLM 호출을 반복하거나 외부 API 변이(mutations)를 중복시키지 않고 실행을 원활하게 재개할 수 있습니다.

연결 복구 및 재개 가능한 스트림 (Connection Recovery & Resumable Streams)

장시간 실행되는 워크플로우를 구축할 때, 클라이언트와 에이전트 간의 연결 끊김은 반드시 발생하기 마련입니다. AX는 **재개 가능한 스트림 (resumable streams)**을 통해 클라이언트 통신을 라우팅합니다. 네트워크 경계에서 연결이 끊어지더라도, 클라이언트는 단순히 AX 컨트롤러(AX Controller)에 다시 연결하기만 하면 되며, 컨트롤러는 장애 발생 시간 동안 누락된 모든 이벤트를 자동으로 백필(backfill)합니다.

2. 네이티브 모델 컨텍스트 프로토콜 (MCP) 지원 (Native Model Context Protocol (MCP) Support)

Google은 개발자들에게 독점적인 생태계를 강요하는 대신, **모델 컨텍스트 프로토콜 (Model Context Protocol (MCP))**을 네이티브로 지원하도록 AX를 구축했습니다.

AX는 MCP 서버를 동적으로 발견 가능한 샌드박스화된 액터(sandboxed actors)로 취급합니다. 중앙의 AX 컨트롤러는 멀티 테넌트(multi-tenant) 도구 수명 주기를 관리하는 운영상의 복잡성을 추상화합니다. 에이전트가 도구 호출을 요청하면, AX 컨트롤러는 도구 레지스트리(tool registry)를 확인하고, 보안 채널을 통해 프로토콜 준수 스키마(protocol-compliant schema)를 실행하며, 해당 상호작용을 중앙 감사 로그(audit log)에 기록합니다.

이러한 디커플링(decoupling)은 절대적인 이식성을 보장합니다. MCP 서버를 통해 노출된 표준 엔터프라이즈 데이터베이스, 파일 시스템 또는 내부 API는 무엇이든 AX 런타임 환경 내에서 즉시 운영 도구로 사용할 수 있습니다.

3. 에이전트 기질을 통한 Kubernetes 네이티브 확장 (Kubernetes Native Scaling via Agent Substrate)

표준 Kubernetes 배포는 수천 개의 정적이고 장시간 실행되는 REST API 또는 gRPC 서비스에 고도로 최적화되어 있습니다. 하지만 엔터프라이즈 에이전트 워크플로(enterprise agent workflow)는 수백만 개의 수명이 짧고, 폭발적이며, 1초 미만으로 지속되는 도구 호출(tool calls)을 생성할 수 있으며, 이는 표준 k8s 제어 평면(control plane)을 빠르게 압도할 수 있습니다.

이러한 아키텍처적 부담을 처리하기 위해, Google은 AX를 Agent Substrate와 결합했습니다. Agent Substrate는 초거대 규모의 에이전트 인프라 밀도를 위해 설계된 Kubernetes용 상호 보완적 오픈 소스 제어 평면(control plane) 레이어입니다.

기능표준 Kubernetes (K8s)AX 및 Agent Substrate를 사용하는 Kubernetes
제어 평면 대상수천 개의 장시간 실행되는 서비스수백만 개의 매우 활발한 에이전트 세션
...

Pod 스냅샷(Pod Snapshots)을 활용함으로써, Agent Substrate는 에이전트가 인간의 피드백을 기다리며 일시 중지되거나 유휴 상태(idle)가 될 때 AX가 에이전트의 메모리 상태와 CPU 컨텍스트(context)를 완전히 동결(freeze)할 수 있도록 합니다. 리소스 점유율(resource footprints)은 거의 제로에 가깝게 떨어져 클러스터의 컴퓨팅 자원을 확보할 수 있습니다. 콜백(callback)이나 이벤트가 에이전트를 트리거하는 즉시, 에이전트는 1초 미만의 초기화 시간과 함께 대기 용량(standby capacity)에서 즉시 동결 해제됩니다.

4. 고급 디버깅: 궤적 분기 (Trajectory Branching)

비결정론적(non-deterministic) 에이전트 루프 깊은 곳에서 실패한 상태를 디버깅하는 것은 악명 높을 정도로 어렵습니다. 이를 해결하기 위해 AX는 **궤적 분기 (Trajectory Branching)**라고 불리는 디버깅 프리미티브(debugging primitive)를 제공합니다.

AX는 이벤트 로그(event log)에 모든 실행 단계를 명시적으로 추적하고 등록하기 때문에, 개발자는 임의의 과거 체크포인트(checkpoint)로부터 에이전트의 실행 경로를 분기할 수 있습니다. 만약 에이전트가 작업의 45번째 단계에서 논리 예외(logic exception)에 도달했다면, 44번째 단계부터 대체 궤적 분기(alternative trajectory branch)를 생성할 수 있습니다. 그 후 에이전트의 프롬프트(prompts)나 기반 코드를 핫패치(hot-patch)하고, 1단계부터 43단계까지를 다시 실행할 필요 없이 해당 스냅샷으로부터 정확히 그 지점에서 트랜잭션을 재실행할 수 있습니다.

시작하기

AX는 런타임 불가지론적 (runtime-agnostic)이기 때문에, 선호하는 프레임워크 (LangGraph, AutoGen, 또는 커스텀 Go/Python 코드베이스)를 사용하여 에이전트를 구축하고 실행 관리 권한을 AX 런타임에 위임할 수 있습니다.

AX CLI는 Go 언어로 작성되었으며, 공개 GitHub 저장소에서 직접 설치할 수 있습니다:

go install github.com/google/ax/cmd/ax@latest
ax --help

취약한 프로토타입 스크립트에서 매우 안정적인 멀티 테넌트 (multi-tenant) AI 운영으로 전환하고자 하는 플랫폼 엔지니어에게, AX는 필요한 오케스트레이션 (orchestration), 보안 경계 (security boundaries), 그리고 엔터프라이즈 거버넌스 (enterprise governance)를 사용자의 Kubernetes 데이터 플레인 (data plane)에 직접 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0