Interactions API Gemini Models Agents: 2026년 완전 가이드

원래 twarx.com에서 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 24일

Interactions API Gemini models agents 엔드포인트는 여러분이 수개월 동안 구축해 온 모든 에이전트형 AI (agentic AI) 프레임워크를 부분적으로 불필요하게 만들었습니다. 그리고 Google은 2026년 6월 23일에 이를 조용히 발표했습니다. 이것은 단순한 엔드포인트 통합이 아닙니다. Interactions API Gemini models agents 레이어는 오케스트레이션 (orchestration) 레이어 자체를 흡수하며, 개발자 커뮤니티는 이것이 전체 LangChain 시대의 툴링 스택 (tooling stack)에 무엇을 의미하는지 이제 막 깨닫기 시작했습니다. 만약 여러분이 Gemini를 기반으로 구축한다면, Gemini 모델 및 에이전트를 위한 Interactions API가 이제 다른 모든 것이 실행되는 기반 도로가 되었습니다.

공식 blog.google 발표에 따르면, Interactions API는 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 주요 (primary) API입니다. 이는 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 도구 결합 (tool combination), 그리고 멀티모달 생성 (multimodal generation)을 지원하는 단일 통합 엔드포인트입니다. 만약 여러분이 기존의 generateContent 엔드포인트를 기반으로 구축했다면, 이는 지금 당장 중요한 문제입니다.

이 글을 마칠 때쯤이면, 무엇이 변했는지, 아키텍처 (architecture)가 어떻게 작동하는지, 비용은 얼마인지, OpenAI의 Responses API와 어떻게 비교되는지, 그리고 여러분의 LangGraph 스택이 여전히 핵심적인 역할을 수행할 수 있는지 정확히 알게 될 것입니다.

Google Interactions API general availability announcement graphic showing unified Gemini endpoint

Google의 공식 Interactions API GA 발표 그래픽 — Gemini 모델 및 에이전트를 위한 통합 인터페이스. 출처

Coined Framework

오케스트레이션 세금 (The Orchestration Tax)

개발자 시간, 인프라 비용, 그리고 지연 시간(latency)에서 발생하는 복리 형태의 숨겨진 비용으로, 팀이 모델 API 자체 외부에서 세션 상태(session state), 도구 라우팅(tool routing), 그리고 백그라운드 실행 로직(background execution logic)을 매번 수동으로 재구현할 때마다 지불하게 되는 비용을 의미합니다. Interactions API는 플랫폼 수준에서 이 세금을 제거하기 위해 명시적으로 설계된 최초의 GA(General Availability) 제품입니다.

Google의 발표 내용: Interactions API의 General Availability 달성

공식 발표: 2026년 6월 23일, 그리고 blog.google의 정확한 내용

2026년 6월 23일, Google DeepMind의 Ali Çevik (Group Product Manager) 및 Philipp Schmid (Developer Relations Engineer)는 Interactions API가 General Availability(GA)에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 기본 API가 되었다고 발표했습니다. 게시물의 정확한 프레임워크는 다음과 같습니다: '서버 측 상태(server-side state), 백그라운드 실행(background execution), 도구 결합(tool combination) 및 멀티모달 생성(multimodal generation) 기능을 갖춘 Gemini 모델 및 에이전트를 위한 단일 통합 엔드포인트(unified endpoint).'

퍼블릭 베타(public beta)는 2025년 12월에 시작되었습니다. 발표에 따르면, 이는 'Gemini를 사용하여 애플리케이션을 구축하는 개발자들에게 빠르게 가장 선호되는 방식이 되었습니다.' 베타 출시 6개월 만에 나온 이 말은 결코 작은 주장이 아닙니다. 이는 지원 중단(deprecation) 압박이 시작되기도 전에 이미 마이그레이션 순풍(migration tailwind)이 강력하게 불고 있음을 시사합니다.

Google이 이를 단순한 또 다른 엔드포인트가 아닌 '기본 인터페이스(primary interface)'로 포지셔닝한 이유

'기본(primary)'이라는 단어에 모든 핵심이 담겨 있습니다. Google은 이제 모든 문서의 기본값을 Interactions API로 설정했음을 확인했으며, '에코시스템 파트너들과 협력하여 제3자(3P) SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들고 있다'고 밝혔습니다. 벤더가 문서와 제3자 SDK 파트너십의 방향을 새로운 접점(surface)으로 재설정할 때, 그 접점은 더 이상 선택 사항이 아니라 다른 모든 것이 구축되는 기반이 됩니다. 저희는 Google Gemini 전략 분석에서 더 넓은 전략을 분석합니다.

안정적인 스키마(stable schema) 마일스톤과 이것이 프로덕션 도입에 시사하는 바

GA(General Availability, 정식 출시) 버전은 **안정적인 스키마 (stable schema)**를 함께 제공합니다. 규제 대상이거나 프로덕션 환경을 운영하는 팀에게 이는 핵심적인 돌파구입니다. 이제breaking changes(파괴적 변경 사항)가 조용히 발생하는 대신 버전별로 관리되기 때문입니다. 또한 이번 출시에는 'Managed Agents (관리형 에이전트), 백그라운드 실행 (background execution), Gemini Omni (곧 출시 예정) 등을 포함하여 개발자들이 요청했던 주요 새로운 기능들'이 추가되었습니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

이를 통해 Google은 OpenAI의 Responses API 및 기존의 Assistants API 아키텍처와 직접 경쟁할 수 있는 위치를 점하게 되었습니다. 두 방식 모두 상태(state)를 서버 측(server-side)으로 먼저 이동시킨 모델입니다. Google의 차별점은 GA의 안정성과 퍼스트 파티(first-party) 도구의 깊이입니다.

벤더가 모든 문서를 새로운 엔드포인트(endpoint)로 재지정하는 순간, 그 엔드포인트는 더 이상 하나의 기능(feature)이 아니라 플랫폼(platform)이 됩니다. 그 외의 모든 것은 기본적으로 레거시(legacy)가 됩니다.

Interactions API란 무엇인가: 쉬운 용어로 풀이한 기술적 정의

핵심 아키텍처의 변화: 상태가 없는(stateless) 생성 호출에서 상태가 있는(stateful) 상호작용 세션으로

기존의 Gemini generateContent 엔드포인트는 상태가 없는(stateless) 방식이었습니다. 매 턴마다 개발자는 전체 대화 기록을 다시 보내야 했고, 세션 ID를 직접 관리해야 했으며, 매 호출마다 도구 상태(tool state)를 다시 주입해야 했습니다. 이는 단발성 프롬프트(one-shot prompt)에는 문제가 없지만, 세 개의 도구를 호출하며 2분 동안 실행되는 12턴 규모의 에이전트에게는 유지보수의 악몽이 됩니다.

Interactions API는 세션 상태(session state)를 **서버 측(server-side)**으로 이동시킵니다. 클라이언트가 대화 기록을 다시 주입하지 않아도 모델이 턴 사이의 컨텍스트(context)를 유지합니다. 추론(inference)을 위해 모델 ID를 전달하고, 자율적인 작업을 위해 에이전트 ID를 전달하며, 세션을 처음부터 다시 구축하는 대신 이전 세션을 참조하기만 하면 됩니다.

이는 가공되지 않은 EC2 인스턴스에서 관리형 AWS Lambda로 전환하는 것과 동일한 개념적 도약입니다. 기반이 되는 컴퓨팅(compute)은 동일하지만, 유지 관리해야 하는 운영 표면적(operational surface area)이 축소됩니다. 여러분은 세션 상태 관리자(session-state janitor) 역할에서 벗어나 기능(feature)을 출시하는 데 집중하게 됩니다.

Gemini 모델, 에이전트, Live API, 그리고 도구 사용(tool use)을 하나의 인터페이스로 통합하는 방법

발표 내용에 따르면, 동일한 엔드포인트(endpoint)가 텍스트, 오디오, 비디오 및 코드 실행(code execution)을 처리합니다. '모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드로 이를 구현할 수 있습니다.' 통합이 핵심입니다. 즉, 하나의 스키마(schema), 하나의 인증 모델(auth model), 하나의 멘탈 모델(mental model)을 갖게 됩니다.

이 API가 제거하기 위해 구축된 '오케스트레이션 세금(Orchestration Tax)' 문제

대부분의 사람들이 에이전트 프레임워크(agentic frameworks)에 대해 오해하는 점이 있습니다. 바로 가치가 에이전트 로직(agent logic)에 있다고 가정하는 것입니다. 그렇지 않습니다. 프로덕션 에이전트의 엔지니어링 시간 대부분은 배관 작업(plumbing)에 소요됩니다. 즉, 세션 지속성(session persistence), 도구 라우팅(tool routing), 재시도 처리(retry handling), 그리고 HTTP 타임아웃(timeout)을 넘어 장기 실행 작업(long-running jobs)을 유지하는 작업 등에 사용됩니다. 이것이 바로 '오케스트레이션 세금(Orchestration Tax)'이며, LangGraph의 StateGraph나 AutoGen의 ConversableAgent와 같은 프레임워크가 존재하는 이유는 바로 Interactions API가 이제 Gemini 워크플로(workflows)를 위해 네이티브하게 처리하는 문제들을 다루기 위해서입니다.

Coined Framework

오케스트레이션 세금(Orchestration Tax) — 적용 사례

만약 여러분의 팀이 지난 분기에 세션 관리 코드, 백그라운드 작업을 위한 웹훅(webhook) 시스템, 그리고 도구 라우팅 계층(tool-routing layer)을 작성하는 데 시간을 보냈다면, 오케스트레이션 세금을 온전히 지불한 것입니다. Interactions API는 이 세금의 대부분을 환급해 줍니다. 단, 단일 벤더의 Gemini 배포 환경에 한해서입니다.

Diagram comparing stateless generateContent calls versus stateful Interactions API sessions

클라이언트 관리형 대화 기록(legacy generateContent)에서 서버 측 상태 유지 세션(server-side stateful sessions)으로의 전환은 오케스트레이션 세금 감소의 핵심입니다.

이전 vs 이후: 멀티턴 에이전트(Multi-Turn Agent)에서의 오케스트레이션 세금 (Orchestration Tax)

  1

    **기존 generateContent (stateless, 상태 비저장)**

클라이언트가 전체 메시지 기록을 저장합니다. 매 턴마다 전체 컨텍스트 윈도우(context window)를 다시 전송합니다. 도구 상태(Tool state)는 수동으로 다시 주입되어야 합니다. 백그라운드 작업(Background jobs)을 위해서는 커스텀 큐(queue)와 웹훅(webhook) 시스템이 필요합니다. 구축 시간의 약 30~60%가 이러한 기반 작업(plumbing)에 소모됩니다.

↓

  2
...

서버가 세션 컨텍스트(session context)를 저장합니다. 클라이언트는 session_id를 참조합니다. 도구들은 MCP 스키마(schema)를 통해 한 번만 등록됩니다. background=True 설정으로 장기 실행 작업(long-running jobs)을 네이티브하게 처리합니다. 기반 작업(plumbing)이 단 몇 줄로 축소됩니다.

↓

  3
...

멀티턴(multi-turn) 시 지연 시간(latency)이 감소하고(재전송 불필요), 실패 모드(failure modes)가 줄어들며, 오케스트레이션 계층(orchestration layer)은 사용자의 책임이 아닌 플랫폼의 책임이 됩니다.

이 시퀀스는 왜 서버 측 상태(server-side state)가 단순한 편의 기능이 아닌지를 보여줍니다. 이는 이전까지 개발 팀이 직접 관리해야 했던 코드 범주 전체를 제거합니다.

전체 기능 상세 분석: Interactions API가 할 수 있는 모든 것

서버 측 상태 관리 (Server-side state management)

이 API는 개발자가 직접 관리하는 메모리 주입(memory injection) 없이도 턴(turn) 간의 상호작용 컨텍스트를 유지합니다. 세션을 시작하면 모델이 컨텍스트를 계속 이어나갑니다. 이는 멀티턴 에이전트 빌더들에게 가장 중대한 변화입니다. 기존 에이전트 스캐폴딩(scaffolding)의 대부분을 차지했던 수동 이력 관리 코드를 제거하기 때문입니다. 더 깊이 있는 패턴은 AI 에이전트 메모리 아키텍처(AI agent memory architectures) 가이드를 참조하세요.

백그라운드 실행: 비동기 에이전트 실행 및 장기 과업 (Background execution: async agent runs and long-horizon tasks)

모든 호출에 background=True를 설정하면 서버가 상호작용을 비동기(asynchronously)로 실행합니다. 이는 단일 HTTP 요청보다 오래 지속되는 작업, 즉 다단계 조사(multi-step research), 대규모 데이터 처리, 그리고 인간 참여형(human-in-the-loop) 승인 워크플로우에 필수적입니다. 이는 AI를 동기식 쿼리 도구가 아닌 비동기 서비스로 판매하기 위한 토대가 됩니다.

백그라운드 실행은 AI 제품 설계를 조용히 재정의합니다. 에이전트가 자신을 시작한 요청보다 더 오래 지속될 수 있을 때, 비로소 왕복 시간(round-trips)이 아닌 결과(outcomes)를 판매할 수 있게 됩니다.

도구 조합: 네이티브 MCP 지원, 검색 그라운딩 (Search Grounding), 코드 실행 (code execution), 커스텀 함수 (custom functions)

GA(General Availability) 출시를 통해 도구 처리 능력이 향상되어, 내장 도구와 커스텀 도구를 혼합하여 사용할 수 있습니다. 가장 눈에 띄는 점은 네이티브 Model Context Protocol (MCP) 지원으로, 이를 통해 제3자 통합(third-party integrations) 전반에 걸쳐 표준화된 도구 스키마(tool schemas)를 사용할 수 있습니다. MCP 호환 시스템을 위해 구축된 도구들은 여기서 재사용이 가능해집니다. 이를 Google 검색 그라운딩 (Search Grounding) 및 코드 실행 (code execution)과 결합하면, Google의 퍼스트 파티 (first-party) 데이터를 위해 제3자 커넥터가 필요 없는 도구 계층을 구축할 수 있습니다.

관리형 에이전트 (Managed Agents): Antigravity 에이전트 및 커스텀 에이전트 빌더

발표 내용에 따르면: '단 한 번의 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스(sandbox)를 프로비저닝합니다.' Antigravity 에이전트가 기본값으로 제공되며, 사용자는 지침(instructions), 기술(skills), 데이터 소스를 사용하여 커스텀 에이전트를 정의할 수 있습니다. 격리된 클라우드 샌드박스는 클라이언트 측 에이전트 실행의 보안 비판에 대한 Google의 직접적인 해답입니다.

관리형 에이전트 (Managed Agents)는 격리된 보안 클라우드 샌드박스에서 실행됩니다. 초기 개발자 보고에 따르면, 이 격리 모델은 OpenAI의 코드 인터프리터 (Code Interpreter)보다 아키텍처 측면에서 더 깔끔하다는 의견이 있으나, 아직 독립적인 제3자 감사는 진행 중입니다. 보안 관련 주장은 프로덕션 적용 가능성이 높지만 아직 독립적으로 검증되지 않은 것으로 간주하십시오.

멀티모달 입력 처리 (Multimodal input handling)

오디오 스트림 (Audio streams), 비디오 프레임 (video frames), 문서, 그리고 혼합 모드 턴 (mixed-mode turns)이 모두 통합된 스키마 하에서 처리됩니다. Gemini Live API 스트림은 동일한 인터페이스 하에서 접근 가능하므로, 저지연(low-latency) 음성 및 비디오 유스케이스를 유지할 수 있습니다. 참고: Gemini 3 모델은 2025년 1월의 지식 컷오프 (knowledge cutoff)를 가지고 있으므로, 프로덕션 환경에서 최신성 격차를 메우는 것은 검색 그라운딩 (Search Grounding) 도구입니다.

2025년 1월
Gemini 3 지식 컷오프 (최신성을 위해 Search Grounding 사용)
[Google AI docs, 2026](https://ai.google.dev/gemini-api/docs)
...