Google Interactions API: 에이전트 오케스트레이션 (Agent Orchestration)을 대체하는 AI 기술

원래 twarx.com에서 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 26일

Google Interactions API는 모델 호출 (model call)과 에이전트 실행 (agent run)을 단일 엔드포인트로 통합하여, 2023년부터 팀들이 짜깁기해 온 커스텀 오케스트레이션 (orchestration) 코드를 대체하는 AI 기술입니다. 이 한 문장의 답변은 매우 중요합니다. 왜냐하면 Google이 방금 대부분의 AI 팀들이 구축해 온 전체 오케스트레이션 레이어 (orchestration layer)를 선택 사항으로 만들었으며, 많은 팀이 지금까지 잘못된 문제를 해결하고 있었다는 사실을 곧 깨닫게 될 것이기 때문입니다.

이는 올해 빌더(builders)들에게 가장 중대한 AI 기술적 변화입니다. 오늘 Google은 Interactions API가 일반 가용성 (general availability) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 기본 API가 되었다고 발표했습니다. 이 API는 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 관리형 에이전트 (Managed Agents), 그리고 통합 스키마 (unified schema)를 도입하여, 시니어 팀들이 2023년부터 다뤄온 SDK들의 누더기 같은 조합을 대체합니다.

이 글을 읽고 나면 무엇이 출시되었는지, 어떻게 작동하는지, 비용은 얼마인지, 언제 LangGraph나 Anthropic의 스택 대신 사용해야 하는지, 그리고 이 API가 실제로 해결하는 조정 (coordination) 문제가 무엇인지 정확히 이해하게 될 것입니다.

Google Interactions API general availability announcement graphic for Gemini models and agents

Gemini 모델 및 에이전트를 위한 기본 인터페이스로서 Interactions API가 일반 가용성(general availability)에 도달했다는 Google의 공식 발표. 출처: Google

Google Interactions API란 무엇인가?

Google Interactions API는 Gemini 모델을 호출하고 자율 에이전트 (autonomous agents)를 실행하기 위한 단일 통합 엔드포인트(single unified endpoint)입니다. 대화 상태 (conversation state), 장기 실행 작업 (long-running tasks), 그리고 도구 실행 (tool execution)이 사용자의 코드 대신 Google의 서버에서 모두 처리됩니다. 이것이 직접적인 답변입니다. 이 섹션의 나머지 부분은 이것이 왜 존재하는지를 설명합니다.

대부분의 AI 워크플로우 (workflows)는 잘못된 문제를 해결하고 있습니다. 엔지니어들은 재시도 로직 (retry logic), 상태 저장소 (state stores), 폴링 루프 (polling loops), 그리고 도구 라우터 (tool routers)를 구축하는 데 수개월을 소비합니다. 이러한 스캐폴딩 (scaffolding)은 근본적인 API가 본질적으로 상태 유지적 (stateful), 비동기적 (asynchronous), 다중 에이전트 (multi-agent)적인 작업에 대해 상태 비저장 (stateless), 동기적 (synchronous), 단일 모델 중심의 세계관을 강요하기 때문에 존재할 뿐입니다. 이는 빠르게 누적됩니다. 하지만 그 중 어느 것도 가치를 전달하지 못합니다.

2025년 12월에 퍼블릭 베타로 출시되어 오늘(2026년 6월 26일) 정식 출시 (general availability)에 도달한 Interactions API는 바로 그 스캐폴딩을 겨냥합니다. Google의 발표에 따르면, 이 API는 '서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 도구 결합 (tool combination) 및 멀티모달 생성 (multimodal generation) 기능을 갖춘 Gemini 모델과 에이전트를 위한 단일 통합 엔드포인트'를 제공합니다. Google DeepMind의 그룹 제품 매니저 (Group Product Manager)인 Ali Çevik은 발표에서 이 API가 'Gemini를 사용하여 애플리케이션을 구축하는 개발자들에게 빠르게 가장 선호되는 방식이 되었다'라고 언급했으며, 이 주장은 Google DeepMind의 개발자 관계 엔지니어 (Developer Relations Engineer)인 Philipp Schmid와 공동 작성되었습니다.

'잘못된 문제'라는 이 문구는 이름을 붙일 가치가 있습니다. 왜냐하면 이것이 이번 출시가 정면으로 맞서 싸우는 체계적인 문제이기 때문입니다.

조어된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)는 단일 모델 호출이 할 수 있는 일과 실제 애플리케이션이 요구하는 사항 — 상태 (state), 장기 실행 작업 (long-running tasks), 도구 시퀀싱 (tool sequencing), 그리고 에이전트 핸드오프 (agent handoffs) — 사이의 벌어지는 간극을 의미합니다. 팀들은 이 격차를 맞춤형 오케스트레이션 (orchestration) 코드로 채우려 하지만, 이는 결국 지연 시간 (latency), 버그, 그리고 유지보수 비용의 가장 큰 원인이 됩니다.

한 문장 정의 (인용 가능): “AI 조정 격차 (AI Coordination Gap): 단일 모델 호출이 할 수 있는 일과 실제 애플리케이션이 요구하는 사항 사이의 벌어지는 간극 — 오늘날에는 커스텀 오케스트레이션 (orchestration) 코드로 채워지고 있지만, 내일은 Google의 Interactions API와 같은 플랫폼 API가 이를 채우게 될 것입니다.” — Rushil Shah, Twarx

여기서의 논지는 간단합니다: Interactions API는 조정 격차 (coordination gap) 문제가 코드베이스가 아닌 서버 측에서 해결되어야 한다는 Google의 베팅입니다. 이전에는 오케스트레이션 (orchestration) 코드를 직접 작성했다면, 이제는 매개변수 (parameter)를 전달하기만 하면 됩니다. 추론을 위한 모델 ID (model ID), 자율 작업을 위한 에이전트 ID (agent ID)를 전달하고, 오래 걸리는 작업에는 background=True를 설정하세요. 복잡성은 엔드포인트 (endpoint) 뒤로 이동합니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

그 세 번째 숫자가 바로 조정 격차 (coordination gap)가 중요한 이유입니다. 각 단계의 신뢰도가 개별적으로 97%인 6단계 에이전트 파이프라인 (agentic pipeline)의 경우, 최종 엔드투엔드 (end-to-end) 신뢰도는 약 83%($0.97^6$)에 불과합니다. 대부분의 팀은 제품을 이미 출시한 후에야 이 사실을 깨닫습니다. 서버 측 상태 (server-side state)와 관리형 실행 (managed execution)이 이 수학적 계산 자체를 없애지는 못하지만, 직접 만든 글루 코드 (glue code)로 인해 발생했던 실패 모드 (failure modes)를 제거해 줍니다. 저는 팀들이 모델의 문제가 아니라, 순전히 자신들이 만든 오케스트레이션 (orchestration) 레이어에 존재하는 버그를 잡느라 2주를 허비하는 것을 보아왔습니다. 솔직히 말해서, 관리형 샌드박스 (managed sandbox)만 있었어도 제가 지난 프로젝트에서 고생하며 구축했던 문서 추출 파이프라인 (document-extraction pipeline)의 시간을 3주나 아낄 수 있었을 것입니다. 당시 저희는 제공업체가 없어서 직접 컨테이너 플릿 (container fleet)을 확보하며 어렵게 구축했고, 스테이징 (staging) 환경에서 권한 설정을 두 번이나 틀린 후에야 겨우 안정화되었습니다.

AI 에이전트 (AI agents)로 승리하는 기업은 GPU를 가장 많이 가진 기업이 아닙니다. 조정 (coordination) 업무를 클라이언트 (client)에서 서버 (server)로 옮긴 기업입니다.

발표된 내용 — 정확한 사실 관계

Google이 오늘의 발표를 통해 확인한 정확한 내용은 다음과 같습니다:

Who (누가): Google DeepMind, Google AI Studio를 통해 발표. Ali Çevik (Group Product Manager) 및 Philipp Schmid (Developer Relations Engineer) 작성.
What (무엇을): Interactions API가 정식 출시(General Availability)되어 'Gemini 모델 및 에이전트와 상호작용하기 위한 우리의 기본 API'가 됨.
When (언제): 2026년 6월 26일 발표. 퍼블릭 베타는 원래 2025년 12월에 출시됨.
Where (어디서): Google AI Studio 및 Google AI for Developers 플랫폼.
Stable schema (안정적인 스키마): 정식 출시(GA)를 통해 '안정적인 스키마(stable schema)'를 확정함 — 요청/응답 계약(request/response contract)이 이제 프로덕션 수준으로 약속됨.
Documentation default (문서 기본 설정): Google에 따르면, '우리의 모든 문서는 이제 Interactions API를 기본값으로 하며, 생태계 파트너들과 협력하여 제3자(3P) SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들기 위해 노력하고 있습니다.'

12월 이후 Google이 명시적으로 언급한 네 가지 주요 기능은 다음과 같습니다: Managed Agents (관리형 에이전트), background execution (백그라운드 실행), Gemini Omni ('곧 출시 예정'으로 설명됨), 그리고 tool improvements (도구 개선).

이번 발표에서 가장 중대한 단 한 줄은 기능이 아니라 전략입니다: Google은 Interactions API를 '제3자(3P) SDK 및 라이브러리 전반의 기본 인터페이스'로 만들고 있습니다. LangChain, LlamaIndex 등이 Gemini 호출을 이 API를 통해 라우팅하게 될 것입니다. 이것은 단순한 제품 출시가 아니라 플랫폼 전략입니다.

Interactions API는 실제로 어떻게 작동하는가?

전문 용어를 걷어내고 살펴보겠습니다. Interactions API는 요청을 보내는 하나의 웹 주소입니다. 오늘날 진지한 Gemini 애플리케이션을 구축한다는 것은 여러 가지 서로 다른 도구들을 조율해야 함을 의미합니다: 기본적인 채팅을 위한 도구 하나, 대화 기록(conversation history) 관리를 위한 또 다른 도구, 백그라운드에서 작업을 실행하기 위한 도구, 그리고 웹 검색이나 코드 실행(code execution)과 같은 도구를 연결하기 위한 또 다른 도구 등이 필요합니다. 각 도구는 저마다의 특이점이 있습니다. Interactions API는 이 모든 것을 하나의 일관된 관문으로 통합하며, 이러한 통합이야말로 이 기술을 단순한 또 다른 SDK가 아닌 진정으로 새로운 범주의 AI 기술로 만드는 핵심입니다.

일반적인 모델 API와 차별화되는 세 가지 개념은 다음과 같습니다:

서버 측 상태 (Server-side state). 보통은 앱이 전체 대화 내용을 기억하고 매번 다시 전송해야 합니다. Interactions API를 사용하면 Google의 서버가 이를 대신 기억해 줍니다. 전체 이력을 다시 보낼 필요 없이 진행 중인 상호작용 (interaction)을 참조하기만 하면 됩니다.
백그라운드 실행 (Background execution). background=True로 설정하면 리서치, 파일 처리, 다단계 추론 (multi-step reasoning)과 같은 긴 작업이 Google 서버에서 비동기적으로 실행됩니다. 작업이 얼마나 오래 걸리든 상관없으며, 이는 심층적인 에이전트 작업 (agentic job)이 실제로 필요로 할 수 있는 10분 또는 20분 동안 클라이언트가 연결을 계속 유지할 필요가 없음을 의미합니다.
관리형 에이전트 (Managed Agents). Google에 따르면, 단 한 번의 API 호출로 '에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (sandbox)를 프로비저닝'합니다. 에이전트는 작업할 수 있는 실제 컴퓨터를 할당받습니다. 사용자가 이를 직접 구축하거나 보안을 설정할 필요가 없습니다.

AI 제공업체가 당신을 대신해 대화를 기억해 주는 날, 당신의 인프라 절반은 선택 사항이 됩니다.

Diagram comparing stateless model API calls versus stateful Interactions API server-side architecture

Interactions API가 도입하는 아키텍처의 변화: 대화 상태 (conversation state), 도구 라우팅 (tool routing), 그리고 장기 실행 (long-running) 작업이 사용자의 애플리케이션에서 Google의 서버로 이동합니다. 이는 AI 조정 격차 (AI Coordination Gap)를 해소하는 핵심입니다.

Interactions API를 호출할 때, 여러분은 단 하나의 파라미터 차이로 세 가지 모드 중 하나를 선택하게 됩니다. 직접적인 추론 (inference)을 원하면 **모델 ID (model ID)**를 전달하세요. 자율적인 작업을 원하면 **에이전트 ID (agent ID)**를 전달하세요. 오래 걸리는 작업에는 background=True를 추가하세요. 서버는 이 파라미터들을 읽고 즉시 응답할지, 샌드박스를 생성할지, 아니면 비동기 작업 (async job)을 큐에 넣을지를 결정합니다.

Interactions API: 요청-결과 흐름 (Request-to-Result Flow)

  1

    **클라이언트가 통합 엔드포인트(unified endpoint)로 하나의 요청을 보냄**

입력값(Inputs): 모델 ID(model ID) 또는 에이전트 ID(agent ID), 사용자 메시지(텍스트, 이미지, 오디오), 선택적 도구(optional tools), 그리고 선택적인 background=True 플래그. 대화 기록(conversation history)을 다시 보낼 필요가 없습니다.

↓

  2
...

Google은 서버 측 대화 상태(server-side conversation state)를 부착한 다음 라우팅합니다: 모델 ID → 추론(inference); 에이전트 ID → Linux 샌드박스(Linux sandbox) 제공 (Managed Agent); background 플래그 → 비동기 작업 큐(async job queue).

↓

  3
...

에이전트인 경우: 원격 Linux 샌드박스 내부에서 추론(reasoning)하고, 코드를 실행하며, 웹을 브라우징하고, 파일을 관리합니다. Antigravity 에이전트가 기본값으로 제공됩니다.

↓

  4
...

내장 도구(검색, 코드 실행)가 동일한 호출 내에서 사용자의 커스텀 도구와 혼합됩니다 — 별도의 오케스트레이션 계층(orchestration layer)이 필요하지 않습니다.

↓

  5
...

동기식 호출(Synchronous calls)은 즉시 반환됩니다. 백그라운드 호출(Background calls)은 폴링(poll)하거나 스트리밍(stream)할 수 있는 핸들(handle)을 반환하며, 상태는 생명주기 전반에 걸쳐 서버 측에 유지됩니다.

이 시퀀스가 중요합니다: 상태 관리와 라우팅은 실행 전(BEFORE)에 서버 측에서 발생하며, 이것이 바로 오늘날 대부분의 팀이 유지 관리하고 있는 클라이언트 측 오케스트레이션 코드를 제거하는 핵심입니다.

이를 예를 들어 LangChain과 벡터 데이터베이스(vector database), 그리고 작업 큐(job queue)로 구축된 전통적인 스택과 비교해 보십시오. 그 환경에서는 상태 저장소(state store), 재시도 로직(retry logic), 샌드박스 보안(sandbox security)을 모두 '직접' 관리해야 합니다. Interactions API는 이러한 책임들을 흡수합니다. 왜 오케스트레이션 계층이 애초에 그렇게 무거워졌는지에 대한 더 깊은 맥락은 우리의 멀티 에이전트 시스템(multi-agent systems) 및 오케스트레이션 패턴(orchestration patterns) 분석을 참조하십시오.

정립된 프레임워크

AI 조정 격차 (The AI Coordination Gap, 적용 사례)

상태가 없는 모델(stateless model)과 상태가 있는 애플리케이션(stateful application)을 연결하기 위해 작성하는 모든 오케스트레이션 코드 한 줄 한 줄은 '조정 격차(Coordination Gap)'에 지불하는 비용입니다. Interactions API의 전략은 플랫폼이 여러분의 팀보다 그 비용을 더 저렴하고 안정적으로 지불할 수 있다는 것입니다.

전체 기능 목록

Google의 GA(General Availability) 발표를 바탕으로, 현재 Interactions API가 수행할 수 있는 모든 기능은 다음과 같습니다: