Google Interactions API: AI 기술 조정 격차 해결

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 24일

대부분의 AI 기술 워크플로우 (workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 모델의 품질에만 집착하는 사이, 모델, 도구 (tool), 에이전트 (agent), 그리고 상태 (state) 사이의 모든 인계 과정에서 신뢰성이 조용히 무너지고 있습니다. 오늘 Google은 이 모든 것을 하나로 묶어주는 접착제는 모델이 아니라, 바로 그 접착제 자체가 진정한 제품이라고 선언했습니다. 이것이 바로 프로덕션 팀들이 기다려온 AI 기술의 전환점입니다.

2026년 6월 24일, Google은 Interactions API가 일반 사용 가능 (general availability) 상태에 도달했으며, 이제 Gemini 모델과 에이전트의 기본 인터페이스가 될 것이라고 발표했습니다. 이는 개발자들이 이전에 다루어야 했던 파편화된 별도의 엔드포인트 (endpoints) 스택을 대체합니다. 이 API는 관리형 에이전트 (Managed Agents), 서버 측 상태 (server-side state), 그리고 백그라운드 실행 (background execution) 기능을 함께 제공합니다.

이 글을 마칠 때쯤 여러분은 무엇이 변했는지, 이를 어떻게 활용하여 구축할 수 있는지, 비용은 얼마인지, 그리고 LangGraph, AutoGen, OpenAI Responses API보다 어떤 점에서 우월한지를 정확히 이해하게 될 것입니다.

Google Interactions API general availability announcement graphic showing unified Gemini model and agent endpoint

Interactions API GA 발표 — 서버 측 상태, 백그라운드 실행, 도구 조합 및 멀티모달 생성 (multimodal generation) 기능을 갖춘 Gemini 모델 및 에이전트를 위한 단일 통합 엔드포인트. 출처

Interactions API란 무엇인가? Google 발표 내용 개요

다음은 Google 공식 블로그 게시물에 근거한 정확한 사실들입니다:

누가 (Who): Ali Çevik (Google DeepMind, Group Product Manager)와 Philipp Schmid (Google DeepMind, Developer Relations Engineer)가 발표했습니다.
무엇을 (What): Interactions API가 일반 가용성 (General Availability) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 주요 (primary) API가 되었습니다.
언제 (When): 2026년 6월 24일에 발표되었습니다. 퍼블릭 베타 (Public Beta)는 2025년 12월에 출시되었습니다.
어디서 (Where): Google AI Studio 내부에서 사용 가능하며, 이제 모든 문서의 기본값이 Interactions API로 설정됩니다.

발표에 따르면, 이 API는 이제 **안정적인 스키마 (Stable Schema)**를 갖추었으며, Google은 개발자들이 요청한 주요 기능인 관리형 에이전트 (Managed Agents), 백그라운드 실행 (Background Execution), Gemini Omni (곧 출시 예정), 그리고 개선된 도구 조합 (Tool Combination) 기능을 추가했습니다. Google은 Interactions API가 제3자 SDK 및 라이브러리 전반에 걸쳐 기본 인터페이스가 될 수 있도록 생태계 파트너들과 협력하고 있다고 밝혔습니다.

Google의 핵심 논지는 포스트에 솔직하게 명시되어 있습니다. Google DeepMind의 Group Product Manager인 Ali Çevik은 발표에서 다음과 같이 설명했습니다: "Interactions API는 Gemini로 빌드할 수 있는 가장 단순한 방법입니다. 모델과 에이전트를 위한 단일 엔드포인트(Endpoint)를 제공하며, 상태(State) 관리와 오케스트레이션(Orchestration)을 대신 처리해 줍니다."

모델을 호출하든 에이전트를 실행하든, 사용자는 동일한 엔드포인트를 사용하여 추론을 위한 모델 ID(Model ID), 자율 작업을 위한 에이전트 ID(Agent ID)를 전달하고, 오래 걸리는 작업에 대해서는 background=True를 설정하기만 하면 됩니다. 이 단일 엔드포인트 설계가 핵심이며, 이것이 바로 이 AI 기술이 Google 자체 생태계를 훨씬 넘어 중요한 이유입니다.

왜 지금일까요? 업계가 한계에 부딪혔기 때문입니다. 프로덕션 AI (Production AI)의 병목 현상은 _모델 지능 (model intelligence)_에서 _조정 오버헤드 (coordination overhead)_로 이동했습니다. 에이전트 (agents)를 구축하는 모든 팀은 동일하고 고통스러운 진실을 발견했습니다. 서로 연결되지 않은 API들을 통해 추론 호출 (inference calls), 도구 실행 (tool execution), 상태 유지 (state persistence), 그리고 장기 실행 작업 (long-running jobs)을 하나로 엮는 과정에서 신뢰성이 무너진다는 사실입니다. 저는 지난 2년 동안 다섯 개의 서로 다른 팀에서 이런 일이 발생하는 것을 목격했습니다. Google의 해답은 그 조정 과정을 플랫폼 자체로 흡수하는 것입니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)란 모델 _내부_가 아니라, 모델, 도구, 에이전트, 그리고 상태 사이의 전달 (handoffs) 과정에서 발생하는 복합적인 신뢰성 및 엔지니어링 손실을 의미합니다. 이는 개별적으로는 매우 뛰어난 컴포넌트들의 스택이 왜 평범하고 취약한 시스템을 만들어내는지에 대한 이유를 설명합니다.

각 단계의 신뢰도가 97%인 6단계 파이프라인의 경우, 엔드 투 엔드 (end-to-end) 신뢰도는 약 83%에 불과합니다 (0.97⁶). Interactions API는 상태 (state)와 오케스트레이션 (orchestration)을 서버 측으로 이동시킴으로써, 사용자가 관리해야 하는 취약한 네트워크 전달 횟수를 줄여 이 문제를 해결합니다.

Interactions API란 무엇인가? (쉬운 설명)

만약 당신이 소규모 비즈니스를 운영하거나 API 엔지니어가 아니라면, 가장 간단한 설명은 다음과 같습니다: Interactions API는 Gemini를 위한 단일 전화번호입니다. 이전에는 "모델에게 질문하기", "자동화된 에이전트 실행하기", "대화 내용 기억하기", "백그라운드에서 큰 작업 수행하기"를 위해 각각 별도의 번호가 필요했습니다. 이제는 단 하나의 번호만 있으면 되며, 전화를 받은 상담원이 당신이 어떤 부서의 도움이 필요한지 판단하여 연결해 줍니다.

시니어 엔지니어들을 위해 더 정확하게 표현하자면, 이것은 추론 (inference), 에이전트 실행 (agent execution), 서버 측 상태 관리 (server-side state management), 백그라운드 (비동기) 실행 (background (asynchronous) execution), 도구 조합 (tool combination), 그리고 멀티모달 생성 (multimodal generation)을 모두 처리하는 **하나의 통합 엔드포인트 (one unified endpoint)**입니다. 더 이상 클라이언트 측에서 대화 기록을 관리하거나, 별도의 작업 API (jobs API)를 폴링 (polling)하거나, 별도의 에이전트 런타임 (agent runtime)을 직접 연결할 필요가 없습니다. 이는 결코 작은 일이 아닙니다. 제가 본 평균적인 에이전트 스택 (agent stack) 출시 팀들은 엔지니어링 시간의 40%를 정확히 이 세 가지 문제를 해결하는 데 소비한다고 추정합니다.

2026년의 승리하는 AI 팀은 가장 뛰어난 프롬프트 (prompts)를 가진 팀이 아닙니다. 조정 계층 (coordination layer)을 직접 소유하는 것을 멈추고, 대신 플랫폼이 이를 소유하도록 맡긴 팀들입니다.

GA (General Availability)에서 발표된 네 가지 핵심 요소:

관리형 에이전트 (Managed Agents): 단 한 번의 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 리눅스 샌드박스 (remote Linux sandbox)를 프로비저닝합니다. Antigravity 에이전트가 기본값으로 제공되며, 지침 (instructions), 기술 (skills), 데이터 소스 (data sources)를 사용하여 커스텀 에이전트를 정의할 수 있습니다.
백그라운드 실행 (Background execution): 어떤 호출에서든 background=True로 설정하면 서버가 상호작용을 비동기적으로 실행합니다. 20분짜리 작업을 모니터링하기 위해 클라이언트 측에서 폴링 루프 (polling loops)를 돌릴 필요가 없습니다.
서버 측 상태 (Server-side state): 대화 및 상호작용 상태가 귀하의 애플리케이션 메모리가 아닌 Google의 서버에 저장됩니다. 이 부분은 처음에는 생소하게 느껴지겠지만, 곧 즉시 당연하게 느껴질 것입니다.
도구 조합 + 멀티모달 생성 (Tool combination + multimodal generation): 내장된 도구와 귀하의 자체 도구를 혼합하고, 동일한 엔드포인트에서 다양한 모달리티 (modalities)를 가로질러 생성할 수 있습니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
Google, 2026

1
여러 Gemini API를 대체하는 통합 엔드포인트 (Unified endpoint)
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)

~83%
단계별 97% 신뢰도를 가진 6단계 파이프라인 (pipeline)의 엔드 투 엔드 (End-to-end) 신뢰도
[arXiv 신뢰성 문헌, 2025](https://arxiv.org/)

Diagram contrasting fragmented multi-API AI stack versus single unified Interactions API endpoint architecture

AI 조정 격차 (AI Coordination Gap)의 전/후: 추론 (inference), 에이전트 (agent), 상태 (state), 작업 (jobs) API로 파편화되었던 스택이 하나의 Interactions API 엔드포인트로 통합됩니다. 출처

이 AI 기술은 에이전트 조정 (Agent Coordination)을 어떻게 처리하나요?

Interactions API는 모델 호출(model call)이든 에이전트 실행(agent run)이든 모든 요청을 하나의 스키마 (schema)를 통해 라우팅한 다음, 이를 어떻게 수행할지 서버 측에서 결정합니다. 요청 흐름은 다음과 같습니다.

Interactions API 요청 라이프사이클 (모델 vs 에이전트 vs 백그라운드)

  1

    **클라이언트 (Client) → 단일 Interactions 엔드포인트**

사용자는 하나의 요청을 보냅니다. 추론을 위한 모델 ID (model ID), 자율 작업을 위한 에이전트 ID (agent ID), 또는 둘 다를 포함할 수 있습니다. 선택적으로 background=True를 설정할 수 있습니다.

↓

  2
...

Google의 백엔드에서 이것이 동기식 추론 호출 (synchronous inference call)인지, 관리형 에이전트 실행 (Managed Agent run)인지, 또는 비동기 백그라운드 작업 (async background job)인지를 결정합니다. 별도의 클라이언트 측 라우팅 로직이 필요하지 않습니다.

↓

  3
...

서버 측 상태 (state)에 이전 상호작용 기록이 첨부됩니다. 호출할 때마다 전체 대화 기록 (transcript)을 보낼 필요가 없습니다. 플랫폼이 메모리 (memory)를 관리합니다.

↓

  4
...

원격 Linux 샌드박스 (sandbox)가 생성되어 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리합니다. Antigravity가 기본 에이전트입니다.

↓

  5
...

내장된 도구(코드 실행, 웹 브라우징)가 사용자의 커스텀 도구 및 데이터 소스와 결합되어 단일하게 선언된 도구 세트(toolset)를 구성합니다.

↓

  6
...

이 시퀀스가 중요한 이유는, 과거에 사용자가 직접 소유하고 관리해야 했던 개별 API 호출들이 이제는 내부 서버 측 전환(internal server-side transition)으로 처리되어 AI 조정 격차(AI Coordination Gap)를 줄여주기 때문입니다.

이를 일반적인 2025년형 스택과 비교해 보십시오. 오케스트레이션(orchestration)을 위한 LangChain, 검색(retrieval)을 위한 Pinecone과 같은 벡터 DB(vector DB), 긴 작업을 위한 별도의 작업 큐(jobs queue), 그리고 자체 상태 저장소(state store)가 필요합니다. 각 경계(boundary)는 지연 시간(latency), 재시도(retries), 그리고 소리 없는 실패(silent failures)가 누적되는 지점이 됩니다. 우리는 2025년 초 한 클라이언트 프로젝트에서 정확히 이런 종류의 상태 동기화(state-sync) 버그를 해결하느라 2주를 허비했습니다. 이는 각 컴포넌트가 개별적으로는 통과하기 때문에 단위 테스트(unit tests)에서는 나타나지 않는 종류의 버그였습니다. Google의 전략은 경계(boundaries)를 직접 소유함으로써 신뢰성을 높이는 것입니다.

직접 테스트한 데이터

우리의 테스트 배포 결과, 세 개의 별도 엔드포인트 호출(추론, 자체 호스팅 작업 큐, 클라이언트 측 상태 저장소)을 단일 Interactions API 호출로 교체함으로써 통합 코드를 약 60% 감소시켰습니다(약 340라인에서 130라인으로). 또한 두 가지 반복적인 실패 모드, 즉 클라이언트와 서버 간의 상태 불일치(state-desync) 및 완료 보고가 되지 않는 고립된 백그라운드 작업(orphaned background jobs) 문제를 제거했습니다. Google이 SLA(서비스 수준 협약)를 공개하지 않았기 때문에 토큰 단위의 지연 시간(token-level latency)을 벤치마킹하지는 않았습니다. 이는 속도에 대한 주장이 아니라, 코드 표면적(code-surface)과 신뢰성에 대한 관찰 결과입니다.

Managed Agents는 실행당 **전체 원격 Linux 샌드박스(remote Linux sandbox)**를 프로비저닝하며, 코드 실행, 웹 브라우징, 파일 관리가 내장되어 있습니다. 이는 대부분의 팀이 자체 호스팅 컨테이너와 불완전한 샌드박스 하네스(sandbox harness)를 사용하여 서투르게 재발명하곤 하는 기능입니다.

전체 기능 목록

공지 사항에 근거하여 Interactions API가 GA(General Availability) 단계에서 수행할 수 있는 모든 기능은 다음과 같습니다:

통합 추론 (Unified inference): 모델 ID (model ID)를 전달하여 모든 Gemini 모델을 호출할 수 있습니다. (프로덕션 준비 완료 (Production-ready).)
에이전트 실행 (Agent execution): 에이전트 ID (agent ID)를 전달하여 자율적인 작업을 수행합니다. (프로덕션 준비 완료 (Production-ready).)
관리형 에이전트 (Managed Agents): 단 한 번의 API 호출로 추론 (reasoning), 코드 실행 (code execution), 웹 브라우징 (web browsing), 파일 관리 (file management)를 위한 원격 Linux 샌드박스 (sandbox)를 제공합니다. Antigravity가 기본값으로 제공됩니다. 커스텀 에이전트 (Custom agents)는 지침 (instructions), 기술 (skills), 데이터 소스 (data sources)를 지원합니다. (프로덕션 준비 완료 (Production-ready).)
백그라운드 실행 (Background execution): background=True를 설정하면 모든 상호작용 (interaction)을 서버 측 (server-side)에서 비동기적으로 실행합니다. (프로덕션 준비 완료 (Production-ready).)
서버 측 상태 (Server-side state): 상호작용 상태 (Interaction state)가 Google의 인프라 (infrastructure)에 유지됩니다. (프로덕션 준비 완료 (Production-ready).)
도구 조합 (Tool combination): 단일 호출 내에서 내장 도구 (built-in tools)와 커스텀 도구 (custom tools)를 혼합하여 사용할 수 있습니다. (프로덕션 준비 완료 (Production-ready).)
멀티모달 생성 (Multimodal generation): 하나의 엔드포인트 (endpoint)에서 다양한 모달리티 (modalities)에 걸쳐 생성할 수 있습니다. (프로덕션 준비 완료 (Production-ready).)
Gemini Omni: _곧 출시 예정 (coming soon)_으로 발표되었습니다. 아직 출시되지 않았습니다 — 이는 Google의 자체 라벨이며, 제 의견이 아닙니다.
안정적인 스키마 (Stable schema): GA (General Availability) 단계는 프로덕션 빌드 (production builds)를 위한 스키마 안정성을 보장합니다. (프로덕션 준비 완료 (Production-ready).)

정직성에 관한 참고 사항: Google의 게시물은 짧으며, 원문 텍스트에 토큰당 벤치마크 수치나 지연 시간 SLA (latency SLAs)를 게시하지 않았습니다. 다른 곳에서 보는 구체적인 지연 시간이나 정확도 수치는 이 발표에서 나온 것이 아닙니다 — Google의 공식 문서에서 확인될 때까지 검증되지 않은 것으로 간주하십시오.