Interactions API Gemini 모델 에이전트: 2026년 Stateless Tax 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 24일

Stateless LLM API를 기반으로 구축된 모든 에이전트형 AI 애플리케이션은 비밀리에 'Stateless Tax(무상태 세금)'를 지불하고 있습니다. 이는 Google이 하룻밤 사이에 불필요하게 만든 세션 메모리(session memory), 도구 오케스트레이션(tool orchestration), 그리고 백그라운드 실행(background execution)을 재구축하는 데 들어가는 수천 시간의 엔지니어링 시간입니다.

Interactions API의 일반 가용성(General Availability) 도달은 이제 Interactions API Gemini 모델 에이전트 스택을 위한 Google의 기본 인터페이스가 되었으며, 이 아키텍처를 이해하는 것은 Google 플랫폼에서 제품을 출시하는 모든 이들에게 필수적입니다. 이는 서버 측 상태(server-side state), 백그라운드 실행(background execution), 그리고 관리형 에이전트(Managed Agents)를 갖춘 단일 통합 엔드포인트입니다. 이것이 중요한 이유는 LangGraph, AutoGen, CrewAI와 같은 미들웨어 계층이 수행하는 작업의 절반을 Gemini 네이티브 스택에서는 불필요하게 만들기 때문입니다.

아무도 크게 말하지 않는 부분은 이것입니다: 이것은 에이전트형 미들웨어 시장을 향한 Google의 조용한 결정타입니다. 이 글을 끝까지 읽으면 이것이 무엇을 하는지, 누가 출시했는지, 어떻게 마이그레이션하는지, 실제 비용은 얼마인지, 그리고 결정적으로 — 어떤 경우에 적합하지 않은지를 알게 될 것입니다.

Google Interactions API general availability announcement graphic for Gemini models and agents

Interactions API의 일반 가용성 도달에 대한 Google의 공식 발표 그래픽 — 이제 Gemini 모델 및 에이전트를 위한 기본 인터페이스입니다. 출처

Coined Framework

Stateless Tax (무상태 세금) — Stateless LLM API를 기반으로 구축하는 모든 팀이 커스텀 세션 관리(custom session management), 재시도 로직(retry logic), 그리고 문맥 재구성(context reconstruction)을 위해 지불해야 하는 숨겨진 엔지니어링 비용이며, Interactions API는 이를 인프라 수준에서 제거합니다.

Stateless Tax는 모델 API가 요청(request) 사이의 모든 것을 잊어버릴 때 발생하는 반복적인 엔지니어링 오버헤드(engineering overhead)를 의미합니다. 이로 인해 팀은 대화 메모리를 재구축하고, 도구 이력(tool history)을 다시 재생하며, 매 호출마다 문맥(context)을 다시 전송해야만 합니다. 이는 에이전트 팀 로드맵의 20~35%를 조용히 잠식하는 보이지 않는 비용 항목을 일컫는 용어입니다.

방법론 참고: 20~~35%의 범위는 2025~~2026년에 걸쳐 11개의 에이전트 구축 프로젝트에서 진행된 Twarx 클라이언트 참여 사례를 통해 도출되었으며, 여기서 카테고리별 엔지니어링 시간을 기록했습니다. 세션/상태/재시도 관련 배관 작업(plumbing)은 출시 전 노력의 약 5분의 1에서 3분의 1을 지속적으로 차지했습니다. 이를 보편적인 벤치마크가 아닌 방향성을 제시하는 분석가 추정치로 간주하십시오.

LangGraph의 세션 관리 계층은 이제 모든 Gemini 네이티브 팀에게 선택 사항인 오버헤드가 되었습니다. Interactions API는 미들웨어(middleware) 시장을 겨냥한 Google의 조용한 결정타입니다.

속보: Interactions API Gemini 모델 에이전트 스택의 GA(General Availability) 도달 시점은 언제인가?

Google의 발표 내용 및 정확한 시점

2026년 6월 23일, Google Keyword 블로그(blog.google)에 게시된 'The Interactions API is now generally available'이라는 제목의 공식 포스트를 통해, Google은 Interactions API가 일반 가용성(GA) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 주요 API라고 발표했습니다. 이 API는 **2025년 12월에 퍼블릭 베타(public beta)**로 처음 출시되었습니다. Google의 설명에 따르면, 이 API는 "Gemini를 사용하여 애플리케이션을 구축하는 개발자들이 가장 선호하는 방식이 빠르게 되었습니다." 이번 GA 릴리스에는 **안정적인 스키마(stable schema)**와 함께 Managed Agents, 백그라운드 실행(background execution), 그리고 Gemini Omni(출시 예정)와 같은 주요 신기능이 포함됩니다.

발언자 — 기록을 위한 명시적 출처

Google DeepMind의 Group Product Manager인 Ali Çevik는 발표문에서 다음과 같이 작성했습니다: "모델을 호출하든 에이전트 (Agent)를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드만으로 이를 구현할 수 있습니다." Google DeepMind의 Developer Relations Engineer인 Philipp Schmid는 동일한 게시물에서 더 큰 그림을 다음과 같이 설명했습니다: "우리는 생태계 파트너들과 협력하여 이것이 제3자 SDK 및 라이브러리 전반에 걸쳐 기본 인터페이스 (Default Interface)가 되도록 만들고 있습니다." 이 두 번째 문장을 두 번 읽어보십시오. 이것은 단순한 기능 플래그 (Feature Flag)가 아닙니다. 기존의 Generate Content 인터페이스가 이제 보조 경로가 되었다는 선언입니다.

공식 출처 및 확인 방법

주요 출처는 Ali Çevik와 Philipp Schmid(둘 다 Google DeepMind 소속)가 작성한 Keyword 블로그 게시물입니다. 보조 문서는 Google AI for Developers 포털에 있으며, 이제 모든 문서는 Interactions API를 기본값으로 합니다.

이번 발표가 이전 Gemini API 업데이트와 다른 이유

대부분의 Gemini API 업데이트는 모델을 추가하거나 파라미터 (Parameter)를 미세 조정합니다. 하지만 이번 업데이트는 개발자 인터페이스 (Developer Surface) 전체를 재정립합니다. 저는 오늘날 새로운 Gemini 빌드를 구축할 때 기존 스택을 사실상 지원 중단 (Deprecated)된 것으로 간주할 것입니다. 저는 두 방식 모두를 사용하여 제품을 출시해 본 사람으로서 이렇게 말씀드립니다.

모델 공급업체 자체가 서버 측 상태 (Server-side State)를 제공할 때, 질문은 "어떤 오케스트레이션 프레임워크 (Orchestration Framework)를 사용할 것인가?"에서 "내 오케스트레이션 프레임워크가 여전히 얼마나 필요한가?"로 바뀝니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

Interactions API란 무엇이며 어떻게 작동하는가?

Interactions API가 기존 GenerateContent API와 다른 점

기존의 GenerateContent API는 상태 비저장 (Stateless) 방식입니다. 즉, 모든 요청은 독립적이며, 매 턴마다 전체 대화 기록, 도구 정의 (tool definitions), 그리고 검색된 모든 컨텍스트를 다시 전송해야 합니다. 매번 단 한 번의 턴이라도 예외 없이 말이죠. Interactions API는 파편화되어 있던 Generate Content, Chat, 그리고 스트리밍 엔드포인트 (streaming endpoints)를 하나로 통합하여, 사용자의 인프라가 아닌 Google의 인프라에서 상태 (state)를 유지하는 **단일 통합 엔드포인트 (single unified endpoint)**로 결합합니다.

서버 측 상태 관리 (Server-side state management) 설명

서버 측 상태 관리란 대화 컨텍스트 (conversation context), 도구 호출 기록 (tool-call history), 그리고 세션 메모리 (session memory)가 매 요청마다 클라이언트 측에서 재구성되는 것이 아니라 Google에 의해 유지된다는 것을 의미합니다. 이것이 아키텍처의 핵심입니다. 상태 비저장 (stateless) 환경에서는 애플리케이션이 대화의 기록 시스템 (system of record) 역할을 합니다. 반면 Interactions API 환경에서는 Google의 세션이 기록 시스템 역할을 하며, 사용자는 ID를 통해 이를 참조합니다. 이는 진정으로 다른 계약 (contract)이며, 여러분이 구축해야 할 대상 자체를 변화시킵니다.

상태 비저장 에이전트 시스템에서 가장 비용이 많이 드는 단 하나의 버그는 컨텍스트 드리프트 (context drift)입니다. 토큰 창 (token window)에 맞추기 위해 기록이 잘리거나, 재시도 시 도구 결과가 조용히 누락되는 현상입니다. 서버 측 상태 관리는 이러한 부류의 문제를 완전히 제거합니다. N개의 재구성된 복사본이 아닌, 단 하나의 정전 (canonical) 세션이 존재하기 때문입니다.

통합 엔드포인트 모델: 모델과 에이전트를 위한 단일 접점

발표에서 Ali Çevik가 언급했듯이: "모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드로 이를 수행할 수 있습니다. 추론 (inference)을 위해서는 모델 ID를, 자율 작업 (autonomous tasks)을 위해서는 에이전트 ID를 전달하고, 오래 걸리는 작업에는 background=True를 설정하면 됩니다." 하나의 엔드포인트. 세 가지 스위치. 이것이 전체 멘탈 모델 (mental model)입니다.

Coined Framework

실전에서의 Stateless Tax (상태 비저장 세금)

만약 여러분의 팀에 session_manager.py라는 파일이 있고, 오로지 대화 상태만을 위한 Redis 클러스터가 있으며, 도구 호출을 재실행하는 재시도 래퍼 (retry wrapper)가 있다면, 여러분은 Stateless Tax를 지불하고 있는 것입니다. Interactions API는 이 세 가지 모두를 플랫폼 레이어 (platform layer)로 이동시킵니다.

상태 비저장 GenerateContent vs 상태 저장 (Stateful) Interactions API — 요청 라이프사이클 (request lifecycle)

  1

    **Stateless (GenerateContent)**

클라이언트가 매 턴마다 전체 히스토리 + 도구 정의 (tool defs) + 검색된 컨텍스트 (retrieved context)를 다시 구축합니다. 토큰 비용은 대화 길이에 따라 증가합니다. 재시도 (Retry) 시 전체를 다시 재생 (replay) 해야 합니다.

↓

  2
...

귀하의 Redis/Postgres 저장소, 귀하의 절단 로직 (truncation logic), 귀하의 도구 호출 원장 (tool-call ledger). 이것이 바로 Stateless Tax (무상태세)이며, 귀하의 팀이 유지 관리해야 합니다.

↓

  3
...

클라이언트가 세션 ID (session ID) + 새로운 턴 (new turn)만 전송합니다. Google이 서버 측 (server-side)에서 컨텍스트, 도구 히스토리, 메모리를 보유합니다.

↓

  4
...

background=True로 설정하면 서버가 상호작용을 비동기적 (asynchronously)으로 실행하며, 유지되는 HTTP 연결은 없습니다. 완료 여부는 폴링 (Poll) 또는 웹훅 (webhook)을 통해 확인합니다.

이 순서가 중요합니다: 서버 측 상태 (3단계)가 비동기 실행 (4단계)을 매우 간단하게 만들어 줍니다. 즉, 컨텍스트를 보존하기 위해 더 이상 소켓 (socket)을 열어둘 필요가 없습니다.

Architecture diagram showing Interactions API unified endpoint routing to Gemini models and Managed Agents

통합 엔드포인트 (unified-endpoint) 모델: 단일 인터페이스가 모델 ID 추론 (model-ID inference)과 에이전트 ID 자율 작업 (agent-ID autonomous tasks)을 라우팅하며, 서버 측 세션 상태 (server-side session state)가 양쪽 모두에서 공유됩니다. 이것이 바로 Stateless Tax를 폐지하는 아키텍처적 기반입니다.

전체 기능 상세 분석: Interactions API가 할 수 있는 것

백그라운드 실행 및 비동기 에이전트 실행

모든 호출에 background=True를 설정하면 Google 서버에서 상호작용이 비동기적으로 실행됩니다. 프로덕션 환경에서는 이것이 결정적인 요소입니다. 장시간 실행되는 에이전트 작업 — 다단계 조사 (multi-step research), 코드 실행 (code execution), 웹 브라우징 (web browsing) — 을 위해 귀하의 인프라가 몇 분 동안 HTTP 연결을 계속 유지할 필요가 없습니다. 동기식 에이전트 루프 (synchronous agent loops)를 괴롭히던 연결 타임아웃 (connection-timeout) 실패 모드가 단순히 사라집니다.

하지만 한 가지는 우리 팀을 당혹스럽게 만들었습니다. 세션 시간 단위 과금 (session-hour billing) 방식은 우리가 실수로 백그라운드 리서치 에이전트 (background research agent)를 밤새 켜두었을 때 처음으로 우리를 놀라게 했습니다. 폴링 루프 (poll loop)가 종료 조건 (exit condition)에 도달하지 않았던 것입니다. 아침에 일어나 보니, 에이전트는 실질적으로 아무것도 하지 않은 채 9시간 동안 과금 가능한 세션을 유지하고 있었습니다. 비싼 대가를 치르고 얻은 교훈은 다음과 같습니다: 에이전트가 프로덕션 (production) 환경에 닿기 전에 반드시 하드 타임아웃 (hard timeout)을 설정하십시오. 이에 대한 자세한 내용은 비용 섹션에서 다루겠습니다.

도구 조합 및 멀티모달 입력 처리 (Tool combination and multimodal input handling)

발표 내용에 따르면, 도구 개선을 통해 단일 상호작용 턴 (interaction turn) 내에서 "내장 도구들을 혼합 (mix built-in tools)"할 수 있습니다. 실제로 구현하면 다음과 같습니다: 그라운딩 (grounding), 코드 실행 (code execution), 그리고 외부 API 호출 (external API calls)이 동시에 발생할 수 있습니다. 즉, 모델이 검색을 수행한 다음, 그 결과에 대해 코드를 실행하고, 이어서 사용자의 API를 호출하는 모든 과정이 서버가 관리하는 하나의 턴 안에서 이루어질 수 있습니다. 이 지점에서 MCP (Model Context Protocol) 호환성이 전략적으로 중요해집니다. 외부 도구들이 Google 전용 스키마 (Google-proprietary schema)가 아닌 개방형 표준을 통해 연결되므로, 여러 벤더에 걸쳐 헤징 (hedging)을 하고 있다면 이는 매우 중요한 요소입니다. 구현 패턴에 대해서는 우리의 MCP 및 도구 통합 가이드를 참조하십시오.

관리형 에이전트 (Managed Agents): Antigravity 에이전트 및 커스텀 에이전트

관리형 에이전트 (Managed Agents)는 이번 GA (General Availability)의 핵심 추가 사항입니다. Google에 따르면: "단일 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (Linux sandbox)를 프로비저닝합니다. Antigravity 에이전트가 기본값으로 제공되며, 사용자는 지침 (instructions), 기술 (skills), 데이터 소스 (data sources)를 사용하여 자신만의 커스텀 에이전트 (custom agents)를 정의할 수 있습니다." 즉, 샌드박스화된 클라우드 에이전트 실행을 관리형 서비스 (managed service)로 제공하는 것입니다. 사용 측에서 직접 호스팅하는 러너 (self-hosted runner)나 컨테이너 오케스트레이션 (container orchestration)이 필요 없습니다.

Antigravity 에이전트가 _기본값 (default)_으로 제공된다는 것은 단순한 각주가 아니라 하나의 신호입니다. 개발자 API의 기본값은 두 분기 내에 사실상의 표준 (de facto standard)이 됩니다. 더 저렴한 옵션이 존재함에도 불구하고 gpt-4o가 OpenAI에서 가장 먼저 찾는 기본값이 된 사례를 보십시오.

새로운 개발자 요청 제어 기능 (New developer-requested controls)

GA (General Availability) 출시와 함께 Managed Agents (관리형 에이전트), 백그라운드 실행 (background execution), 그리고 Gemini Omni (곧 출시 예정)를 포함하여 "개발자들이 요청한 주요 새로운 기능들"이 추가되었습니다. 추론 깊이 (reasoning depth), 지연 시간 (latency), 비용 (cost) 사이의 관계를 평가하는 빌더들에게, 이 통합 엔드포인트 (unified endpoint)는 이러한 제어 기능들이 노출되는 단일 지점이며, 기존 스택에서 필요했던 엔드포인트별 조절 과정을 대체합니다. 이러한 기능들을 출시 가능한 제품으로 조립하는 팀들을 위해, 참조 패턴을 확인할 수 있는 AI 에이전트 라이브러리 탐색하기를 제공합니다.

단 한 번의 API 호출로 프로비저닝되어 추론, 코드 실행, 브라우징 및 파일 관리가 가능한 샌드박스화된 Linux 박스는, 단순히 에이전트를 출시하는 것과 취약한 러너 (runners) 군단을 운영하는 것 사이의 차이를 만듭니다.