본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 25. 00:25

Interactions API Gemini 모델 및 에이전트: 무엇이 바뀌었으며 언제 마이그레이션해야 하는가

요약

Google의 Interactions API가 정식 출시되면서 Gemini 모델과 에이전트를 위한 새로운 기본 인터페이스가 등장했습니다. 기존의 stateless 방식 대신 서버 측 상태, 메모리, 에이전트 실행을 통합 관리하여 기존 오케스트레이션 프레임워크의 구조적 변화를 예고합니다.

핵심 포인트

  • Interactions API는 상태, 메모리, 에이전트 실행을 엔드포인트로 통합함
  • 기존 generateContent 방식에서 서버 측 상태 관리 방식으로 전환됨
  • LangGraph, AutoGen 등 기존 프레임워크 사용자의 아키텍처 재검토 필요
  • 백그라운드 실행 및 호스팅된 관리형 에이전트 지원

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 24일

Interactions API Gemini 모델 및 에이전트의 변화로 인해, 여러분이 Gemini를 기반으로 구축하기 위해 수개월 동안 공들여 만든 모든 오케스트레이션 프레임워크 (orchestration framework)가 기술 부채 (technical debt)로 변해버렸습니다. Google의 Interactions API는 상태 (state), 메모리 (memory), 그리고 에이전트 실행 (agent execution)을 엔드포인트 (endpoint) 자체로 직접 이동시키며, 오늘부터 Gemini 모델과 에이전트를 위한 Google의 기본 인터페이스가 되었습니다.

Interactions API는 2025년 12월 퍼블릭 베타 (public beta) 이후 정식 출시 (general availability)되었으며, 기존의 상태 비저장 (stateless) 방식인 generateContent 패턴을 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 도구 조합 (tool combination), 그리고 호스팅된 관리형 에이전트 (Managed Agents)를 처리하는 단일 통합 엔드포인트로 대체했습니다. 만약 여러분이 가공되지 않은 Gemini 호출 위에 LangGraph, AutoGen, 또는 CrewAI를 실행하고 있다면, 이는 여러분의 아키텍처 계산식을 하룻밤 사이에 바꿔 놓을 것입니다. 점진적으로가 아니라, 하룻밤 사이에 말입니다.

이 글을 읽고 나면 무엇이 출시되었는지, 서버 측 상태가 어떻게 작동하는지, 비용은 얼마인지, 언제 마이그레이션(migrate)해야 하는지, 그리고 — 똑같이 중요한 점으로서 — 언제 기존 스택을 그대로 두어야 하는지를 정확히 알게 될 것입니다.

Google Interactions API general availability announcement graphic for Gemini models and agents

Interactions API가 Gemini 모델 및 에이전트를 위한 기본 인터페이스로 정식 출시(general availability)되었음을 알리는 Google의 공식 발표 그래픽. 출처

Coined Framework

오케스트레이션 붕괴 계층 (The Orchestration Collapse Layer) — 파운데이션 모델 (Foundation Model) 제공업체가 충분한 미들웨어 기능(상태(State), 메모리(Memory), 도구 라우팅(Tool Routing), 백그라운드 실행(Background Execution))을 흡수하여, 외부 오케스트레이션 프레임워크가 핵심 가치 제안을 상실하게 되는 건축적 순간. 이로 인해 개발자들은 생태계 종속(Ecosystem Lock-in)과 엔지니어링 오버헤드(Engineering Overhead) 사이에서 선택해야만 한다.

Interactions API는 현재까지 이러한 붕괴를 보여주는 가장 명확한 사례입니다. Google은 세션 상태(Session State), 비동기 실행(Async Execution), 에이전트 호스팅(Agent Hosting) 기능을 엔드포인트 자체로 통합했습니다. 이 현상이 지적하는 구조적인 문제는, 수천 개의 팀이 제공업체가 이제 네이티브하게 해결한 문제를 풀기 위해 미들웨어를 구축해 왔으며, 이제 그 미들웨어는 자산이 아닌 부채(Liability)가 되었다는 점입니다.

Google의 발표 내용: Interactions API 출시 (공식 사실 및 날짜)

정확한 발표 내용: 출처, 날짜 및 범위

Google은 The Keyword (blog.google)를 통해 Interactions API가 일반적으로 사용 가능(General Availability, GA)해졌으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 기본 API가 되었다고 발표했습니다. 이 게시물은 Google DeepMind의 그룹 제품 매니저(Group Product Manager)인 Ali ÇevikGoogle DeepMind의 개발자 관계 엔지니어(Developer Relations Engineer)인 Philipp Schmid가 작성했습니다.

공식 텍스트에 따르면, 이 API는 2025년 12월에 퍼블릭 베타(Public Beta)를 시작했으며, Google의 표현을 빌리자면 'Gemini를 사용하여 애플리케이션을 구축하는 개발자들에게 빠르게 가장 선호되는 방식이 되었다'고 합니다. GA 릴리스는 **안정적인 스키마(Stable Schema)**와 함께 제공되는데, 이는 엔터프라이즈 팀들이 기다려온 프로덕션 준비 완료(Production-readiness)의 명시적인 신호입니다. 왜 이 특정 문구가 목록에 있는 그 어떤 기능보다 중요한지는 나중에 다시 다루겠습니다. Google이 얼마나 빠르게 반복(Iteration)해 왔는지에 대한 맥락을 확인하려면, 현재 이 인터페이스를 기본값으로 사용하는 공식 Gemini API 문서를 참조하십시오.

blog.google의 주요 헤드라인

이번 발표에는 개발자들이 요청해 온 여러 기능이 포함되었습니다: Managed Agents (관리형 에이전트), background execution (백그라운드 실행), Gemini Omni (출시 예정), 그리고 도구(tool) 개선 사항입니다. 결정적으로, Google은 모든 문서의 기본값이 이제 Interactions API로 설정되었다고 밝혔으며, '제3자(3P) SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들기 위해 생태계 파트너들과 협력하고 있다'고 언급했습니다. 이는 단순한 기능 발표가 아닙니다. 이는 생태계 표준화(ecosystem standardisation)를 위한 전략적 움직임입니다.

이전 generateContent API와의 차이점

이전의 generateContent 엔드포인트는 상태 비저장(stateless) 방식이었습니다. 즉, 모든 호출마다 전체 대화 기록을 포함해야 했으며, 애플리케이션이 모든 상태(state)를 직접 관리해야 했습니다. 전부 다 말이죠. Interactions API는 단일 통합 엔드포인트를 도입하며, 소스에 따르면 사용자는 추론을 위한 모델 ID(model ID), 자율 작업을 위한 에이전트 ID(agent ID)를 전달하고, 오래 걸리는 작업에 대해서는 background=True로 설정하면 됩니다. 이제 하나의 엔드포인트가 단발성(one-shot) 모델 호출과 다단계 자율 에이전트(multi-step autonomous agent)를 모두 처리합니다. 핵심 개념은 같지만, 노출되는 인터페이스(surface area)는 근본적으로 다릅니다.

이번 발표에서 가장 과소평가된 문구는 바로 **'안정적인 스키마(a stable schema)'**입니다. Google의 1.x Gemini API 생성 과정은 파괴적 변경(breaking changes)으로 인해 개발자의 신뢰를 잃었습니다. GA(General Availability) 수준의 안정적인 스키마 약속은 기업 아키텍트들이 운영 환경으로의 마이그레이션을 승인하기 전에 요구했던 정확한 조건이며, 이는 그 어떤 단일 기능보다 중요합니다.

Interactions API란 무엇인가? 아키텍처 및 핵심 개념

쉬운 언어로 설명하자면: Gemini 모델로부터 빠른 답변을 얻고 싶든, 웹을 탐색하고 코드를 실행하며 파일을 관리하는 오래 걸리는 자율 에이전트가 필요하든, 여러분이 통신하는 단 하나의 웹 주소입니다. Google이 자체 서버에서 여러분을 대신해 대화 내용을 기억해 줍니다. 그것이 전부입니다.

통합 엔드포인트 모델: 모델과 에이전트를 위한 단일 API

공식 소스에 따르면, '모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드로 이를 구현할 수 있습니다.' 하나의 엔드포인트. 하나의 멘탈 모델 (mental model). 모델 ID를 전달하면 추론 (inference)을 얻고, 에이전트 ID를 전달하면 자율적인 작업 실행기 (autonomous task runner)를 얻게 됩니다. 이는 이전에 분리되어 있던 두 가지 개발 경로를 하나로 통합합니다. 이는 실제 운영 환경에서 두 경로를 모두 유지 관리하며 그 사이에서 얼마나 많은 드리프트 (drift)가 발생하는지 깨닫기 전까지는 사소하게 들릴 수 있습니다.

서버 측 상태 (Server-Side State): 이것이 중요한 아키텍처 변화인 이유

서버 측 상태 (Server-side state)란 대화 기록, 도구 호출 (tool-call) 결과, 에이전트 컨텍스트 (agent context)가 여러분의 애플리케이션 레이어가 아닌 Google의 인프라 상에 존재함을 의미합니다. 그것이 전부입니다. 이것은 이번 출시에서 가장 중대한 변화입니다. 팀들이 LangGraphAutoGen을 추가로 도입했던 가장 흔한 이유는 멀티 턴 상태 (multi-turn state)를 관리하기 위해서였는데, Interactions API는 멀티 턴 세션 (multi-turn sessions)을 네이티브로 지원하므로 대다수의 애플리케이션에서 그 필요성을 완전히 제거합니다. 개념적인 기초를 먼저 다지고 싶다면, 저희의 AI 에이전트 가이드에서 상태 관리 (state management)를 처음부터 자세히 설명합니다.

파운데이션 모델 (foundation model) 제공업체가 여러분의 대화 상태를 소유하는 순간, 여러분의 오케스트레이션 프레임워크 (orchestration framework)는 인프라가 아닌 오버헤드 (overhead)가 됩니다. 그 순간이 오늘 Gemini에게 찾아왔습니다.

오케스트레이션 붕괴 레이어 (The Orchestration Collapse Layer) — 외부 미들웨어가 이제 선택 사항이 된 이유

프레임워크 명명 (Coined Framework)

실전에서의 오케스트레이션 붕괴 레이어

상태, 도구 라우팅 (tool routing), 그리고 백그라운드 실행 (background execution)이 엔드포인트 내부로 이동하면, 이를 제공하던 미들웨어는 차별성을 잃게 됩니다. 붕괴는 프레임워크가 즉시 사라진다는 뜻이 아닙니다. 프레임워크가 제공업체가 아직 흡수하지 못한 좁은 복잡성의 영역으로 후퇴해야 함을 의미합니다. 그리고 그 영역은 점점 좁아지고 있습니다.

백그라운드 실행이 장기 실행 에이전트 작업에 미치는 변화

어떤 호출에서든 background=True를 설정하면 Google 서버에 해당 상호작용(interaction)을 비동기(asynchronously)로 실행하도록 지시합니다. 이는 에이전트 워크플로(agentic workflows)를 괴롭혀온 30초 HTTP 타임아웃 문제에 대한 직접적인 해답입니다. 저는 이 문제로 인해 최악의 순간에 데모가 중단되는 것을 목격해 왔습니다. 이전에는 개발자들이 긴 작업을 유지하기 위해 Celery, RQ 또는 AWS SQS를 연결해야 했습니다. 백그라운드 실행(Background execution)을 사용하면 에이전트가 몇 분 동안 추론(reasoning)하는 동안 연결을 계속 유지할 필요가 없습니다. 큐 워커(queue workers)도, 재시도 로직(retry logic)도 필요 없습니다. 그저 폴링(poll)만 하면 됩니다.

Diagram contrasting stateless generateContent calls with stateful Interactions API server-side sessions

오케스트레이션 붕괴 계층(Orchestration Collapse Layer)의 전/후 비교: 왼쪽은 개발자가 소유한 상태(state)와 외부 오케스트레이션을 보여주며, 오른쪽은 Interactions API 내부의 Google이 소유한 서버 측 상태를 보여줍니다.

Interactions API 요청 생명주기: 세션에서 백그라운드 에이전트까지

  1

    **세션 생성 (POST /interactions/sessions)**

session_id를 반환합니다. 이제 Google이 대화 기록(conversation history)을 소유합니다. 더 이상 개발자가 메시지 배열을 관리할 필요가 없습니다.

↓

  2
...

추론(inference)을 위한 모델 ID 또는 자율 작업을 위한 에이전트 ID를 전달합니다. 컨텍스트(Context)는 서버 측 상태로부터 자동으로 로드됩니다.

↓

  3
...

Google Search 그라운딩(grounding), 코드 실행(code execution), RAG 검색(retrieval), 그리고 커스텀 MCP 도구들이 별도의 호출 없이 하나의 상호작용 내에서 체인(chain)으로 연결됩니다.

↓

  4
...

장기적 작업(Long-horizon work)은 Google 서버에서 비동기로 실행됩니다. HTTP 연결을 유지하는 대신 완료 여부를 폴링(poll)하세요.

↓

  5
...

Antigravity 에이전트(기본값)는 단 한 번의 API 호출로 프로비저닝된 격리된 Linux 샌드박스(sandbox) 내에서 추론하고, 코드를 실행하며, 브라우징하고, 파일을 관리합니다.

이 시퀀스는 매우 중요합니다. 이전에는 각 단계마다 세션 저장소, 큐, 샌드박스와 같은 별도의 인프라가 필요했지만, 이제 이 API가 이를 네이티브하게 프로비저닝하기 때문입니다.

전체 기능 상세 분석: Interactions API의 모든 기능

Managed Agents: 클라우드 호스팅 기반 사전 구축된 에이전트 설명

공식 소스에 따르면, 단 한 번의 API 호출로 에이전트가 추론(reasoning), 코드 실행(execute code), 웹 브라우징(browse the web) 및 파일 관리(manage files)를 수행할 수 있는 원격 Linux 샌드박스(sandbox)가 프로비저닝됩니다. Antigravity 에이전트가 기본값으로 제공되며, 개발자는 지침(instructions), 기술(skills), 데이터 소스(data sources)를 사용하여 커스텀 에이전트를 정의할 수 있습니다. 이것이 GA(General Availability) 출시의 핵심적인 새로운 기능입니다. 즉, 직접 배포하거나 패치할 필요가 없으며, 재시작을 위해 새벽 3시에 깨어날 필요도 없는 호스팅된 에이전트(hosted agents)를 제공한다는 것입니다. 만약 이 기능들을 자체 설계 모델과 벤치마킹하고 있다면, 저희의 AI 에이전트 라이브러리를 탐색하여 사전 구축된 패턴들이 어떻게 구성되어 있는지 확인할 수 있습니다.

도구 조합: Google Search, 코드 실행 및 커스텀 MCP 통합

해당 소스는 개발자가 세션 내에서 '내장된 도구(built-in tools)를 혼합'할 수 있음을 확인해 줍니다. 실제로 이는 Google Search를 통한 그라운딩(grounding), 코드 실행(code execution), 벡터 검색(RAG), 그리고 Model Context Protocol (MCP)를 따르는 커스텀 도구들이 별도의 오케스트레이션된 왕복(round-trips) 과정을 거칠 필요 없이 하나의 상호작용(interaction) 내에서 체인(chain) 형태로 연결될 수 있음을 의미합니다. 제거된 각각의 왕복 과정은 새벽 2시에 디버깅할 필요가 없는 네트워크 홉(network hop)을 줄여줍니다.

상호작용 세션 전반에 걸친 멀티모달(Multimodal) 지원

서버 측 상태(server-side state)를 통해 이미지, 오디오, 비디오 및 텍스트 입력은 이전 미디어를 다시 전송하지 않고도 턴(turn) 간에 컨텍스트(context)를 유지합니다. 멀티모달 에이전트 워크플로우(workflows)에서 이는 매우 중요한 요소입니다. 상태가 유지되지 않는(stateless) 시대에는 매 턴마다 대용량 미디어를 다시 업로드하는 것이 실제 비용과 지연 시간(latency)의 주요 원인이었으며, 토큰 예산(token budgets)을 매우 빠르게 소모하게 만들었기 때문입니다.

개발자 요청에 따른 새로운 파라미터 및 Gemini Omni

해당 소스는 Managed Agents 및 백그라운드 실행(background execution)과 함께, 새로운 기능 중 하나로 **Gemini Omni (곧 출시 예정)**를 명시적으로 나열하고 있습니다. Google은 이를 12월 베타 기간 동안 개발자들이 요청했던 사항에 대한 직접적인 응답으로 규정하고 있습니다. '곧(soon)'이라는 표현이 몇 주를 의미하는지 혹은 몇 분기를 의미하는지는 아직 알 수 없습니다.

단일 세션 내에서의 도구 조합 (Tool combination)은 조용하지만 강력한 핵심 기능 (killer feature)입니다. 제거되는 각각의 개별 도구 호출 (tool call)은 네트워크 홉 (network hop), 상태 동기화 (state-sync) 위험, 그리고 오케스트레이션 (orchestration) 코드가 오류를 일으킬 수 있는 지점을 하나씩 줄여줍니다. 움직이는 부품이 적다는 것이 바로 오케스트레이션 붕괴 계층 (Orchestration Collapse Layer)이 제공하는 전체 가치 제안 (value proposition)입니다.

2025년 12월
Interactions API 공개 베타 출시일
[Google / The Keyword, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

Interactions API 액세스 및 사용 방법: 단계별 가이드

사전 요구 사항: Google AI Studio, Vertex AI 및 API 키 설정

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0