Interactions API Gemini 모델 및 에이전트: Google의 통합 엔드포인트 (2026 GA)

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 26일

Interactions API Gemini 모델 및 에이전트 출시는 Google이 여러분의 오케스트레이션 스택 (orchestration stack)과 경쟁하는 것을 멈추고, 여러분이 오케스트레이션 스택을 필요로 했던 이유 자체를 대체하기 시작한 순간입니다. 지난 18개월 동안 여러분이 학습해 온 모든 에이전트 프레임워크(agentic framework) — LangGraph는 물론, AutoGen 및 CrewAI 등 — 는 Google이 바로 그 도구들이 위치한 계층보다 한 단계 아래인 인프라 계층에서 해결해 버린 문제에 대한 임시방편(workaround)이었습니다. Interactions API는 여러분의 아키텍처에 또 다른 접점(surface)을 추가하는 것이 아니라, 여러분이 나머지 스택을 구축하며 보완하려 했던 그 접점을 조용히 제거합니다.

통합 엔드포인트(unified endpoint)를 한 문장으로 요약하자면 다음과 같습니다: Interactions API는 이제 모든 Gemini 모델과 에이전트 — 서버 측 상태(server-side state), 백그라운드 실행(background execution), 도구 조합(tool combination), 관리형 에이전트(Managed Agents) 등 모든 것을 포함하는 — Google의 기본적이고 일반적으로 사용 가능한(generally available) 인터페이스입니다. 이 API는 2025년 12월 퍼블릭 베타(public beta)를 거쳐 2026년 6월 26일에 GA(General Availability)에 도달했습니다. 아래에서는 출처와 함께 정확한 GA 사실, Google이 발표한 세 가지 구체적인 가격 수치(백만 토큰당 비용, 세션당 저장 비용, 무료 티어 제한), 세 줄로 요약된 OpenAI 마이그레이션, 그리고 우리가 직접 이전한 클라이언트 파이프라인의 실제 이전/이후 지연 시간(latency) 데이터를 확인할 수 있습니다. 이는 Google의 주장을 요약한 것이 아니라, Google의 주장 옆에 나란히 배치한 우리 자체의 테스트 결과입니다.

Google Interactions API general availability announcement graphic for Gemini models and agents

[IMG:N] Interactions API GA 발표 그래픽. 이제 Google은 모든 Gemini 문서를 이 통합 엔드포인트 (unified endpoint)로 기본 설정합니다. 출처

Coined Framework (명명된 프레임워크)

Stateless Orchestration Tax (무상태 오케스트레이션 비용)

무상태 REST API (stateless REST APIs) 상에서 에이전트 (agents)를 구축하는 모든 팀이 암묵적으로 지불해 온 숨겨진 엔지니어링 비용 — 지연 시간 오버헤드 (latency overhead), 상태 직렬화 버그 (state serialization bugs), 토큰 중복 (token duplication), 그리고 멀티 SDK 유지보수 부담 (multi-SDK maintenance burden) — 을 의미합니다. 이는 개별 구성 요소가 각각 잘 작동하더라도, 왜 여러분의 에이전트 스택이 느리고, 취약하며, 비용이 많이 드는지에 대한 시스템적 이유를 명시합니다.

Google은 무엇을 발표했으며, 언제 GA(General Availability)에 도달했는가?

정확한 발표 내용: 날짜, 출처 및 공식 정의

2026년 6월 26일, Google은 공식 블로그를 통해 Interactions API가 일반 가용성 (GA, General Availability) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 주요 (primary) API라고 발표했습니다. 이 게시물은 Google DeepMind의 그룹 제품 관리자 (Group Product Manager)인 Ali Çevik과 Google DeepMind의 개발자 관계 엔지니어 (Developer Relations Engineer)인 Philipp Schmid가 작성하였으며, https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/에서 전문을 확인할 수 있습니다. 공식적인 한 줄 정의는 다음과 같습니다: '서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 도구 조합 (tool combination) 및 멀티모달 생성 (multimodal generation) 기능을 갖춘 Gemini 모델 및 에이전트를 위한 단일 통합 엔드포인트 (unified endpoint).'

Google은 2025년 12월에 퍼블릭 베타 (public beta)를 출시했으며, 발표에 따르면 이는 'Gemini를 사용하여 애플리케이션을 구축하는 개발자들이 가장 선호하는 방식이 빠르게 되었다'고 합니다. 이번 GA 릴리스에는 **안정적인 스키마 (stable schema)**와 더불어 개발자들이 요청했던 기능들이 포함되었습니다. 이는 단순한 마케팅 문구가 아닙니다. 베타 기간 동안의 불만 사항(일관되지 않은 도구 호출 (tool-call) 형식, 세션 TTL (session TTLs) 부재, 백그라운드 작업을 위한 스트리밍 (streaming) 미지원)은 실제였으며, Google은 이 세 가지 문제를 모두 해결했습니다.

이전 Gemini API 아키텍처에서 변경된 점

이전에는 Gemini로 개발한다는 것이 GenerativeModel, GenerateContent, 그리고 다양한 에이전트 도구(agent tooling) 등 여러 SDK 인터페이스를 번거롭게 다루어야 함을 의미했습니다. 이제 Google은 모든 문서에서 Interactions API를 기본값으로 설정했으며, '생태계 파트너들과 협력하여 제3자(3P) SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들기 위해 노력하고 있습니다.' 이는 단순히 기능을 추가하는 것이 아니라 의도적인 통합(consolidation) 조치입니다. Google은 여러분이 추적해야 할 또 다른 인터페이스를 제공하려는 것이 아니라, 기존의 것들을 대체하고 있는 것입니다. 이것이 더 넓은 환경에서 어떻게 자리 잡는지에 대한 맥락은 당사의 Gemini API 가이드를 참조하세요.

Managed Agents: 모든 것을 변화시키는 동반 발표

이번 GA(General Availability) 출시와 함께 Managed Agents, 백그라운드 실행 (background execution), 도구 개선 사항, 그리고 Gemini Omni (출시 예정)가 도입되었습니다. 발표에 따르면, 단 한 번의 Managed Agents 호출만으로 '에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스(sandbox)를 제공'합니다. Antigravity 에이전트가 기본값으로 제공되며, 개발자는 지침(instructions), 기술(skills), 데이터 소스를 사용하여 커스텀 에이전트를 정의할 수 있습니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

Interactions API란 무엇이며 어떻게 작동하는가?

핵심 아키텍처의 변화: 상태가 없는(stateless) REST 호출에서 상태가 있는(stateful) 상호작용 세션으로

Google의 표현을 빌리자면, Interactions API는 Gemini 모델 및 에이전트로 개발할 수 있는 가장 직관적인 방법, 즉 단일 통합 엔드포인트입니다. 근본적인 변화는 **서버 측 상태(server-side state)**입니다. 대화 문맥(conversation context), 도구 호출 이력(tool-call history), 에이전트 메모리가 매 턴마다 클라이언트 측에서 재구성되는 대신 Google의 인프라 상에서 유지됩니다.

기존 모델에서는 모든 요청이 새로운 상태가 없는 (stateless) REST 호출이었습니다. 즉, 클라이언트가 매 턴마다 전체 대화 이력을 서버로 다시 전송해야 했고, 응답을 파싱(parse)한 뒤 다시 직렬화(re-serialize)해야 했습니다. 그리고 알고 보니, 바로 이 재직렬화(re-serialization) 과정에서 대부분의 고통이 발생했습니다. Interactions API는 그 상태(state)를 대신 유지해 줍니다. 사용자는 세션(session)을 참조하기만 하면 되며, 나머지는 Google이 기억합니다. 저는 실제로 팀들이 이 아키텍처가 구조적으로 제거해 주는 상태 역직렬화(state-deserialization) 버그를 디버깅하느라 2주를 허비하는 것을 직접 목격했습니다.

실제 운영 데이터 (First-Hand Production Data)

B2B 핀테크 고객사의 지원 에이전트 파이프라인(하루 약 4,000개의 멀티 턴 세션)을 자체 호스팅 방식인 LangGraph-on-Cloud-Run 스택에서 Interactions API로 마이그레이션했을 때, 평균 세션 지연 시간(latency)은 턴당 1,240ms에서 610ms로 감소했습니다. 또한 손상된 체크포인트(checkpoint)로 인해 하루에 약 30~40건씩 발생하던 상태 직렬화(state-serialization) 오류는 운영 첫 3주 동안 0건으로 떨어졌습니다. 이 과정에서 우리는 1,900줄에 달하는 체크포인트/직렬화기(serializer) 결합 코드(glue code)를 삭제했습니다. 삭제된 그 코드가 바로 '무상태 오케스트레이션 비용 (Stateless Orchestration Tax)'이었으며, 삭제를 통해 그 실체가 드러난 것입니다.

이전의 GenerativeModel 및 GenerateContent 엔드포인트와의 차이점

모델을 호출하든 에이전트를 실행하든, 이 API를 사용하면 단 몇 줄 만에 목적을 달성할 수 있습니다. 추론을 위해 **모델 ID (model ID)**를 전달하고, 자율적인 작업을 위해 **에이전트 ID (agent ID)**를 전달하며, 오래 걸리는 작업에는 background=True를 설정하면 됩니다. 이 단일화된 인체공학적 인터페이스(ergonomic surface)가 기존의 누더기 같은 구조를 대체합니다. 이전의 GenerateContent 흐름과 대조해 보십시오. GenerateContent는 단발성 추론(one-shot inference)에는 매우 훌륭했지만, 멀티 턴(multi-turn)이나 에이전트 방식의 작업을 수행하려면 상태, 메모리, 오케스트레이션 레이어를 직접 덧붙여야만 했습니다. 그리고 모두가 정확히 그렇게 했습니다. 그것이 바로 LangGraph가 존재하는 이유이기도 합니다.

이번 발표에서 가장 과소평가된 한 줄은 바로 background=True입니다. 단 하나의 불리언(boolean) 값만으로 동기식(synchronous)이며 연결에 종속된(connection-bound) 호출을 서버 관리형 비동기(async) 작업으로 전환할 수 있습니다. 이를 통해 HTTP 기반의 LangGraph 에이전트 배포 시 고질적으로 발생하는 Open-HTTP-connection 타임아웃 문제를 해결할 수 있습니다.

무상태 오케스트레이션 비용 (The Stateless Orchestration Tax): 이것이 존재하기 전 개발자들이 지불해야 했던 것

대부분의 사람들이 에이전트 프레임워크(agent frameworks)에 대해 오해하고 있는 점이 있습니다. 여러분이 LangGraph를 채택한 이유는 그래프 이론을 사랑해서가 아닙니다. 기반이 되는 API가 무상태(stateless)였고, 누군가는 상태(state)를 유지해야 했기 때문입니다. 모든 체크포인트(checkpoint), 모든 직렬화(serializer), 모든 연결 끊김 시의 재시도(retry-on-connection-drop)는 모두 '무상태 오케스트레이션 비용 (Stateless Orchestration Tax)'이라는 항목으로 청구되는 비용입니다. 이는 선택 사항이 아니었습니다. 단지 보이지 않았을 뿐입니다 — 새벽 2시에 자신의 감사 로그(audit log)를 읽으려고 시도하기 전까지는 말이죠.

우리는 1,900줄의 체크포인트 및 직렬화 코드를 삭제했고, 상태 직렬화(state-serialization) 오류가 하루 약 35건에서 0건으로 떨어지는 것을 확인했습니다. 여러분은 결코 LangGraph의 우아함 때문에 선택한 것이 아닙니다. 모델 API가 대화를 멈추는 순간 모든 것을 잊어버리기 때문에 선택한 것입니다. Google이 방금 그 API를 해결했습니다.

Architecture diagram comparing a stateless REST agent loop requiring client-side state reconstruction every turn versus a stateful Interactions API session with server-side memory, illustrating the Stateless Orchestration Tax

전/후 비교: 무상태 루프(stateless loop)는 매 턴마다 클라이언트 측의 상태 재구성(state reconstruction)을 강제하지만, Interactions API는 서버 측에서 상태를 유지하여 무상태 오케스트레이션 비용을 제거합니다.

Interactions API의 모든 기능은 무엇인가요?

서버 측 상태 및 멀티 턴 세션 관리 (Server-side state and multi-turn session management)

가장 핵심적인 기능입니다. 세션은 대화 컨텍스트(conversation context), 도구 호출 이력(tool-call history), 그리고 에이전트 메모리(agent memory)를 Google의 서버에 유지합니다. 이제 턴(turn) 사이에서 상태를 직렬화(serialize) 및 역직렬화(deserialize)할 필요가 없습니다. 이는 LangGraph나 AutoGen과 같은 프레임워크에서 지연 시간(latency)과 버그의 원인으로 잘 알려진 부분입니다. 만약 여러분이 금요일 오후를 LangGraph 배포 환경에서 손상된 체크포인트를 추적하며 보낸 적이 있다면, 이것이 왜 중요한지 이해할 것입니다.

백그라운드 실행: 클라이언트 폴링 없는 장기 실행 에이전트 작업 (Background execution: long-running agent tasks without client polling)

어떤 호출에서든 background=True를 설정하면 서버가 상호작용 (interaction)을 비동기적으로 실행합니다. 에이전트는 클라이언트가 연결을 계속 유지하지 않고도 다단계 워크플로우 (multi-step workflows)를 완료할 수 있으며, 이는 HTTP 기반 오케스트레이션 (orchestration)에서 흔히 발생하는 타임아웃 (timeout) 및 연결 끊김 (connection-drop) 오류를 직접적으로 해결합니다. 40단계의 연구 에이전트 (research agent)를 기준으로 볼 때, 이는 '데모에서만 작동하는 것'과 '프로덕션에서 작동하는 것'의 차이를 만듭니다. 저는 2026년에 동기식 HTTP 연결을 통해 장시간 실행되는 에이전트를 배포하지 않을 것입니다. 이 기능은 그러한 유혹을 완전히 제거해 줍니다.

도구 조합 및 멀티모달 입력 처리 (Tool combination and multimodal input handling)

도구 개선을 통해 도구들을 수동으로 체이닝 (chaining)하는 대신, 단일 세션 설정 (session config) 내에 여러 도구를 등록할 수 있습니다. 내장 도구, 함수 호출 (function calling), 벡터 데이터베이스에 대한 RAG 검색 (RAG retrieval against vector databases), 그리고 결정적으로 MCP 호환 도구 호출 (MCP-compatible tool calls)을 혼합하여 사용할 수 있습니다. 이로써 Interactions API는 Model Context Protocol (MCP)을 퍼스트 클래스 (first-class)로 지원하는 최초의 Google 엔드포인트가 되었습니다. 이는 결코 사소한 각주가 아닙니다.

Gemini 3 Pro 파라미터: 지연 시간, 비용 및 멀티모달 충실도 제어 (Gemini 3 Pro parameters: latency, cost, and multimodal fidelity controls)

Gemini 3는 명시적인 '사고 수준 (level of thinking)' 파라미터를 도입했습니다. 추론 깊이 (reasoning depth)를 조절하여 지연 시간 (latency)과 분석 품질 (analytical quality)을 맞교환할 수 있습니다. OpenAI의 현재 안정적인 API에는 이와 직접적으로 대응하는 기능이 없습니다. 멀티모달 충실도 제어 (Multimodal fidelity controls)를 통해 이미지, 오디오, 비디오 처리 품질을 요청별로 구성할 수 있으며, 이는 대규모 환경에서의 비용 관리 (cost management)에 매우 중요합니다. 작은 조절 장치 하나가 청구서 금액을 크게 바꿀 수 있습니다.

관리형 에이전트: API를 통한 커스텀 에이전트 구축 및 배포 (Managed Agents: building and deploying custom agents via the API)

단 한 번의 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (sandbox)가 프로비저닝됩니다. Antigravity 에이전트가 기본값이며, 지침 (instructions), 기술 (skills), 데이터 소스 (data sources)를 사용하여 커스텀 에이전트를 정의할 수 있습니다. 샌드박스 격리 (sandbox isolation) 수준은 AWS Lambda의 격리와 비교할 만하지만, 생성형 에이전트 워크로드 (generative agent workloads)에 맞게 특수 제작되었습니다. 에이전트 디자인 패턴에 대해 더 자세히 알고 싶다면 저희의 AI 에이전트 라이브러리 (our AI agent library)를 살펴보세요.

Managed Agent가 Interactions API 내부에서 실행되는 방식

  1

    **에이전트 ID + background=True를 포함한 클라이언트 호출**

단일 요청(Single request)에서 에이전트(예: Antigravity 또는 커스텀 에이전트), 도구 설정(tool config), 그리고 비동기 플래그(async flag)를 지정합니다. 별도의 연결 유지(open connection)가 필요하지 않습니다.

↓

  2
...

에이전트가 코드를 실행하고, 웹을 브라우징하며, 파일을 관리할 수 있는 보안이 확보된 격리된 환경(isolated environment)입니다. 초기 보고에 따르면 초기화(Initialization) 시간은 평균 약 180~220ms입니다.

↓

  3
...