Google Interactions API GA: 모델과 에이전트를 통합하는 AI 기술

Originally published at twarx.com - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 24일

Google은 방금 세 가지 요소 — 직접적인 모델 호출 (direct model calls), 다단계 에이전트 오케스트레이션 (multi-step agent orchestration), 그리고 장기 실행 백그라운드 실행 (long-running background execution) — 를 단일 엔드포인트 (single endpoint)로 통합했습니다. 이 기술의 이면에 있는 AI 기술은 우리 대부분이 Gemini 스택을 구축할 때 기반으로 삼았던 사고 모델 (mental model)을 조용히 퇴출시켰습니다.

대부분의 AI 기술 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 팀들은 프롬프트 품질 (prompt quality)과 모델 선택 (model selection)에 집착하지만, 실제 병목 현상 (bottleneck)은 모델, 도구 (tools), 상태 (state), 그리고 장기 실행 작업 (long-running tasks) 사이를 이어주는 접착제인 조정 (coordination) 단계에서 발생합니다. 2026년 6월 24일부로 일반 가용성 (GA, General Availability) 상태가 된 Google의 Interactions API는 바로 그 계층을 공략합니다. 이 글을 읽으면 실제로 무엇이 출시되었는지, 관리형 에이전트 (Managed Agents)와 백그라운드 실행 (background execution)이 내부적으로 어떻게 작동하는지, 비용은 얼마인지, LangGraph 및 AutoGen과 비교했을 때 어떤지, 그리고 — 결정적으로 — 언제 이것을 사용하지 말아야 하는지를 알게 될 것입니다.

Google AI Studio Interactions API general availability announcement graphic for Gemini models and agents

Interactions API의 일반 가용성 (GA) 도달에 대한 Google의 공식 발표 그래픽 — Gemini 모델과 에이전트를 위한 단일 통합 엔드포인트. 출처: The Keyword, Google

Google의 Interactions API란 무엇인가?

빠른 정의

한 단락으로 보는 Interactions API

Google Interactions API는 Gemini 모델을 호출하고 자율 에이전트 (autonomous agents)를 실행하기 위한 단일 통합 엔드포인트로, 2026년 6월 24일부터 일반 제공 (GA, General Availability)되었으며 현재 Gemini를 활용한 구축을 위한 Google의 주요 API입니다. 이 API는 서버 측 상태 (server-side state), 관리형 에이전트 (Managed Agents, 추론, 코드 실행, 웹 브라우징 및 파일 관리가 가능한 원격 Linux 샌드박스를 각각 프로비저닝함), background=True 플래그를 통한 백그라운드 실행 (background execution), 도구 조합 (tool combination), 그리고 멀티모달 생성 (multimodal generation)을 지원합니다. 이는 LangGraph, AutoGen, CrewAI와 같은 프레임워크와는 구별되는데, 해당 프레임워크들은 사용자가 직접 호스팅해야 하는 모델 불가지론적 (model-agnostic) 오케스트레이션 라이브러리인 반면, Interactions API는 샌드박스, 상태 지속성 (state persistence), 비동기 인프라 (async infrastructure)를 통합하여 제공하는 Gemini 우선 관리형 서비스 (Gemini-first managed service)이기 때문입니다. 구체적인 Interactions API 가격은 GA 시점에 공개되지 않았으며, Google AI Studio의 무료 티어(free tier)를 기준으로 삼으십시오.

2026년 6월 24일, Google은 Interactions API가 일반 제공(GA) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 주요(primary) API라고 발표했습니다. 이것은 사이드 프로젝트가 아닙니다. 이번 발표에서 가장 중요한 문구는 '주요 API (primary API)'입니다. Google은 단일 모델 호출과 다단계 자율 에이전트를 동일한 종류의 객체로 취급하는 하나의 인터페이스를 위해, 기존의 요청/응답 (request/response) 모델 엔드포인트가 가졌던 개념적 우선순위를 폐기하고 있습니다.

이 API는 2025년 12월에 퍼블릭 베타(public beta)로 처음 출시되었습니다. Google은 이것이 'Gemini를 활용해 애플리케이션을 구축하는 개발자들에게 빠르게 가장 선호되는 방식이 되었다'라고 주장합니다. Google 자체의 베타 지표는 독립적으로 검증되지 않았으므로, 이 API를 로드맵에 반영하기 전에 직접 지연 시간(latency) 벤치마크를 수행하십시오. GA(General Availability) 출시를 통해 검증 가능하게 제공되는 것은 엔지니어들이 실제로 중요하게 여기는 두 가지입니다. 즉, 파괴적 변경(breaking changes)에 대한 두려움 없이 프로덕션 시스템을 구축할 수 있는 **안정적인 스키마 (stable schema)**와, 개발자들이 요청했던 구체적인 기능들인 관리형 에이전트 (Managed Agents), 백그라운드 실행 (background execution), 확장된 도구 조합 (expanded tool combination), 그리고 Gemini Omni (곧 출시될 예정이라고 발표되었으며, 아직 배포되지는 않음)입니다.

이 발표에는 두 명의 이름이 등장합니다. Google DeepMind의 그룹 제품 매니저(Group Product Manager)인 Ali Çevik과 Google DeepMind의 개발자 관계 엔지니어(Developer Relations Engineer)인 Philipp Schmid가 공동 저자로 참여했습니다. Schmid의 참여는 중요합니다. 그는 Hugging Face 시절부터 오픈 소스 ML 커뮤니티에서 널리 알려진 인물이며, 그의 참여는 Google이 단순히 기업용 계약뿐만 아니라 개발자 생태계의 채택을 원한다는 신호입니다. 저자들이 공식 포스트에서 언급했듯이, Interactions API는 'Gemini로 구축하는 가장 간단한 방법입니다. 모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드만으로 이를 달성할 수 있습니다' (Çevik & Schmid, Google, 2026).

핵심적인 아키텍처 결정은 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 도구 조합 (tool combination), 그리고 멀티모달 생성 (multimodal generation)을 수행하는 하나의 통합된 엔드포인트(unified endpoint)를 제공하는 것입니다. 또한 Google은 이제 모든 문서의 기본값(default)이 Interactions API로 설정되었음을 확인했습니다. Google은 서드파티 SDK 및 라이브러리 전반에 걸쳐 이를 기본 인터페이스로 만들기 위해 생태계 파트너들과 협력하고 있습니다. 이 마지막 부분은 전략적인 핵심을 보여줍니다. Google은 단순히 기능을 출시하는 것이 아닙니다. 오케스트레이션 표준(orchestration standard) 전쟁에서 승리하려고 노력하고 있는 것입니다.

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 개별 모델이 얼마나 뛰어난 성과를 내는지와 그 주변 시스템(상태, 도구, 비동기 실행, 에이전트 핸드오프 (agent handoffs))이 얼마나 형편없이 이들을 조정하는지 사이의 벌어지는 간극을 의미합니다. 이는 주의력의 90%가 모델 자체에 집중됨에도 불구하고, 실제 프로덕션 AI 실패의 90%가 발생하는 스택 (stack)의 영역입니다.

여기에 역설적인 해석이 있습니다. 이 AI 기술이 흥미로운 이유는 Gemini가 더 똑똑해졌기 때문이 아니라, Google이 실제 가치가 있는 곳은 조정 계층 (coordination layer)이라는 점을 인정했기 때문입니다. 시니어 엔지니어와 AI 리드들에게 이는 멀티 에이전트 시스템 (multi-agent systems)이 주류가 된 이후 가장 중대한 프레임워크의 전환입니다. 이제 모델은 더 이상 제품이 아닙니다. 모델과 에이전트를 조정하는 인터페이스 (interface)가 바로 제품입니다.

2025년 12월
Interactions API 공개 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

비전문가에게 Interactions API는 무엇을 해주는가?

당신이 작은 회계 법인을 운영한다고 상상해 보십시오. 오늘날 AI가 송장 더미를 읽고, 온라인에서 공급업체 세부 정보를 검색하고, 이를 스프레드시트와 대조하여 요약문을 작성하게 하려면, 다섯 가지 서로 다른 서비스를 하나로 연결할 소프트웨어 팀이 필요합니다. 모든 연결 지점은 무언가가 고장 날 수 있는 지점입니다.

Interactions API는 이 모든 과정을 **단일 요청 (single request)**으로 만들려는 Google의 시도입니다. 당신은 하나의 주소로 하나의 명령을 보냅니다. 그 이면에서 Google은 질문을 던졌을 때처럼 모델을 통해 즉각적으로 답변하거나, 혹은 완전한 **에이전트 (agent)**를 구동합니다. 에이전트란 당신이 다른 일을 하는 동안 백그라운드에서 스스로 생각하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 AI 작업자입니다. 미들웨어 (middleware)도, 글루 코드 (glue code)도 필요 없습니다. 단 한 번의 호출이면 충분합니다.

이 메커니즘은 겉보기에는 의도적으로 평범해 보이지만, 내부적으로는 매우 강력합니다:

모델 ID (model ID) 전달 → 추론 (Gemini 모델로부터의 직접적인 답변)을 얻습니다.
에이전트 ID (agent ID) 전달 → 에이전트에 의해 실행되는 자율적인 작업 (autonomous task)을 얻습니다.
background=True 설정 → 장시간 실행되는 모든 작업은 서버 측에서 비동기 (asynchronously)로 실행되므로, 앱이 대기 상태로 멈춰있지 않습니다.

개발자는 단순한 질문에서 자율적인 다단계 작업 (multi-step task)으로 전환하기 위해 API, SDK 또는 사고 모델 (mental models)을 바꿀 필요가 없습니다. 그것이 바로 실시간으로 좁혀지고 있는 조정 격차 (coordination gap)입니다. 비교를 위해 말씀드리자면, 오픈 소스 세계에서의 동일한 작업은 호출을 위한 LangChain, 상태 관리를 위한 LangGraph, 비동기 작업을 위한 큐 (queue), 그리고 코드 실행을 위한 별도의 샌드박스 (sandbox) 제공업체를 하나로 엮어야 합니다. 즉, 각각 실패 방식이 다른 네 개의 구성 요소를 다뤄야 합니다. 저는 두 개의 프로덕션 시스템에서 이러한 결합 작업을 수행해 본 적이 있습니다. 작동은 하지만, 수개월 동안 그 연결 부위(seams)를 디버깅해야 합니다.

모델은 더 이상 제품이 아닙니다. 모델과 에이전트를 조정하는 인터페이스가 제품이며, Google은 방금 그 카테고리의 이름을 정했습니다.

Diagram showing one unified Interactions API endpoint routing to Gemini model inference, Managed Agents, and background execution

Interactions API가 도입하는 개념적 변화는 다음과 같습니다: 추론, 에이전트, 비동기 작업을 위한 별도의 엔드포인트(endpoints)와 SDK를 사용하는 대신, 빌더(builders)는 모든 것을 하나의 인터페이스를 통해 라우팅하여 AI 조정 격차 (AI Coordination Gap)를 해소합니다.

백그라운드 실행 (Background Execution)은 내부적으로 어떻게 작동할까요?

내부적으로 Interactions API는 모든 요청을 서버 측 상태(server-side state)를 가진 **상호작용 객체 (interaction object)**로 취급합니다. 이는 기존의 상태 비저장(stateless) 채팅 완성(chat completion) 패턴으로부터의 구조적 탈피를 의미합니다. 전통적인 모델 API에서는 애플리케이션이 대화 기록, 도구 결과, 중간 단계들을 보유하고 있다가 매 호출마다 이 모든 것을 다시 전송합니다. 이러한 패턴은 작업이 길어질수록 비용이 많이 들고 취약해지는데, 모든 재전송 과정이 컨텍스트(context)가 어긋나거나, 잘리거나(truncate), 혹은 토큰 비용(token bill)을 폭증시킬 수 있는 또 다른 기회가 되기 때문입니다. 서버 측 상태를 사용하면 Google이 사용자를 대신해 해당 컨텍스트를 유지하므로, 백그라운드 실행(background execution)과 장기적인 에이전트 실행이 단순히 이론적인 수준을 넘어 실제로 실행 가능한 영역이 됩니다.

Interactions API 요청 라이프사이클 — 단일 호출에서 자율 에이전트 실행까지

  1

    **단일 엔드포인트 요청 (Single Endpoint Request)**

애플리케이션은 모델 ID(추론용) 또는 에이전트 ID(자율 작업용)를 지정하여 하나의 요청을 보냅니다. 선택 사항: 장기 실행 작업의 경우 background=True를 설정할 수 있습니다. 입력값은 텍스트, 이미지, 오디오 또는 파일(멀티모달, multimodal)이 될 수 있습니다.

↓

  2
...

Google은 모델 ID를 Gemini 추론으로 직접 라우팅(route)합니다. 에이전트 ID는 원격 Linux 샌드박스인 관리형 에이전트(Managed Agent)를 프로비저닝(provision)하며, 여기서 에이전트는 추론(reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있습니다.

↓

  3
...

상호작용 객체(interaction object)는 대화 기록, 도구 출력, 중간 추론 과정을 서버 측에 보유합니다. 더 이상 매 턴마다 전체 컨텍스트를 다시 보낼 필요가 없으며, 이는 장기적인 에이전트 실행과 지연 시간(latency) 측면에서 매우 중요합니다.

↓

  4
...

에이전트는 내장 도구(코드 실행, 웹 브라우징, 파일 관리)를 사용자의 커스텀 도구, 기술 및 데이터 소스와 결합합니다. 기본 에이전트는 Google의 Antigravity 에이전트입니다.

↓

  5
...

이 시퀀스가 중요한 이유는 2~4단계인 라우팅(routing), 상태(state), 그리고 도구 결합(tool combination)이 바로 팀들이 일반적으로 직접 구축하며 프로덕션 환경에서 문제를 겪는 핵심 계층이기 때문입니다.

GA의 기능을 시스템을 정의하는 구성 요소별로 나누어 설명하겠습니다. 각 레이어의 명칭은 마이그레이션을 결정하려는 엔지니어링 조직에 발표할 때와 동일한 방식으로 명명하겠습니다.

Layer 1: 통합 엔드포인트 (The Unified Endpoint)

단일 주소, 단일 스키마 (schema). 모델 호출 (model calls)과 에이전트 실행 (agent runs)이 동일한 인터페이스를 사용합니다. 이것이 기초입니다. 'LLM이 질문에 답하는 단계'에서 '에이전트가 워크플로우 (workflow)를 완료하는 단계'로 기능을 격상시킬 때 임피던스 불일치 (impedance mismatch)가 발생하지 않습니다. 과거에 이러한 격상은 코드 재작성을 의미했습니다. 이제는 ID를 교체하는 것뿐입니다.

Layer 2: 관리형 에이전트 (Managed Agents)

Google에 따르면, '단 한 번의 API 호출로 에이전트가 추론(reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (sandbox)를 프로비저닝 (provisioning)할 수 있습니다.' Antigravity 에이전트가 기본값으로 제공되며, '지침 (instructions), 기술 (skills), 데이터 소스 (data sources)를 갖춘' 커스텀 에이전트를 정의할 수 있습니다. 이것이 진정한 핵심 뉴스입니다. 사용자가 컨테이너 (container)를 직접 관리하지 않고도 에이전트별로 샌드박스 컴퓨팅 환경을 프로비저닝하는 기능은, AutoGen 및 CrewAI에 샌드박스 제공업체를 별도로 결합하여 사용하는 방식과 직접적으로 경쟁합니다. 저는 이 조합을 프로덕션 환경에서 운영해 본 적이 있습니다. 운영 (ops) 부담이 결코 작지 않습니다.

Layer 3: 백그라운드 실행 (Background Execution)

'모든 호출에서 background=True로 설정하십시오. 서버가 상호작용을 비동기적 (asynchronously)으로 실행합니다.' 이것으로 끝입니다. 이것이 챗봇 (chatbot)과 자동화 플랫폼 (automation platform)의 차이입니다. 리서치, 리포지토리(repo) 전반의 코드 생성, 다중 문서 조정 (multi-document reconciliation)과 같은 긴 에이전트 작업은 더 이상 비용이 많이 드는 작업이 돌아가는 동안 인프라가 몇 분 동안 연결을 유지하도록 요구하지 않습니다.