AI 기술 조정 격차: Google Interactions API의 GA(General Availability) 달성

Originally published at twarx.com - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 26일

대부분의 AI 워크플로우(workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 올해 AI 기술 (AI technology) 인프라에서 가장 중대한 변화가 방금 일어났습니다. Google이 지금까지 중 가장 강력한 증거를 내놓았습니다. Interactions API가 일반 사용 가능(General Availability, GA) 상태에 도달했으며, 이제 모든 Gemini 모델과 에이전트(agent)를 위한 기본 인터페이스가 되었습니다. 5인 규모의 팀에게, 브라우징을 수행하고, 코드를 실행하며, 파일을 작성하는 관리형 에이전트(Managed Agent)는 실행당 개발자 급여가 아닌 몇 센트에서 몇 달러의 비용이 듭니다. 이 단 하나의 수치가 소규모 팀을 위한 '직접 구축(build)할 것인가, 구매(buy)할 것인가'의 계산법을 다시 쓰게 만듭니다.

하나의 통합된 엔드포인트(endpoint). 모델 추론(Model inference), 자율 에이전트(autonomous agents), 서버 측 상태(server-side state), 백그라운드 실행(background execution), 멀티모달 생성(multimodal generation) — 이 모든 것이 단 몇 줄의 코드만으로 가능합니다. 그것이 전부입니다. 이는 Gemini 시대가 시작된 이후 대부분의 시니어 팀들이 덕테이프로 이어 붙이듯 임시방편으로 구성해 온 파편화된 스택(stack)을 대체합니다. 지금까지 아무도 명명하지 않았던 것 — 바로 지금 전까지는 — 이 스택이 실제로 가리고 있었던 문제는 바로 'AI 조정 격차(AI Coordination Gap)'였습니다.

이 글을 끝까지 읽으시면 무엇이 출시되었는지, 아키텍처(architecture)가 어떻게 작동하는지, 비용은 얼마인지, 그리고 LangGraph, AutoGen, CrewAI와 비교했을 때 어디에서 우위에 있고 어디에서 뒤처지는지를 정확히 알게 될 것입니다. 저는 어떤 부분이 고통스러운지 알 정도로 충분한 양의 글루 코드(glue code)를 직접 배포해 왔습니다.

Google Interactions API general availability announcement graphic for Gemini models and agents unified endpoint

Google의 Interactions API가 Gemini 모델과 에이전트를 위한 기본 인터페이스로서 일반 사용 가능(General Availability) 상태에 도달했습니다. 출처: Google

Coined Framework

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)는 고립된 상태에서 작동하는 모델과 실제 운영 환경(production)에서 작동하는 에이전트 시스템 (agentic system) 사이의 소리 없는 실패 공간을 의미합니다. 이곳은 상태 (state), 도구 호출 (tool calls), 재시도 (retries), 그리고 장기 실행 작업 (long-running tasks)이 서로 맞지 않는 API들 사이에서 결합되다가 실제 부하 (load) 상황에서 무너지는 지점입니다. 이는 대부분의 팀이 모델 품질 (model-quality) 문제로 오진하지만, 실제로는 조정 (coordination) 문제인 시스템적 문제를 일컫는 용어입니다.

개요: 이번 AI 기술 발표가 실제로 출시한 것

2026년 6월 26일, Google DeepMind는 Interactions API가 일반 사용 가능 (General Availability, GA) 단계에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 주요 (primary) API라고 발표했습니다. 이 발표문은 Google DeepMind의 그룹 제품 매니저(Group Product Manager)인 Ali Çevik과 Google DeepMind의 개발자 관계 엔지니어(Developer Relations Engineer)인 Philipp Schmid가 작성했습니다.

만약 당신이 Gemini 네이티브 (Gemini-native)라면, 코드를 실행하고 웹 브라우징을 수행하는 에이전트를 실행하기 위해 더 이상 LangGraph를 사용할 필요가 없습니다. 단 한 번의 API 호출로 전체 Linux 샌드박스 (sandbox)를 프로비저닝할 수 있습니다.

이 API는 2025년 12월에 퍼블릭 베타 (public beta)로 출시되었으며, Google에 따르면 "Gemini를 활용하여 애플리케이션을 구축하는 개발자들이 가장 선호하는 방식이 빠르게 되었습니다." GA 마일스톤에서 시니어 엔지니어들에게 중요한 세 가지 요소는 다음과 같습니다: 안정적인 스키마 (stable schema), 개발자들이 명시적으로 요청했던 일련의 주요 새로운 기능들, 그리고 이제 모든 Google 문서가 Interactions API를 기본값으로 설정한다는 약속입니다. 마지막 항목이 핵심입니다. 이것은 단순한 기능 출시가 아닙니다. 플랫폼의 전환 (platform shift)입니다.

12월 이후의 주요 추가 사항은 Managed Agents (관리형 에이전트), background execution (백그라운드 실행), Gemini Omni (출시 예정), 그리고 개선된 도구 조합입니다. Google은 또한 Interactions API가 제3자 SDK 및 라이브러리 전반에 걸쳐 기본 인터페이스가 될 수 있도록 생태계 파트너들과 협력하고 있습니다. 이것이 바로 제품 출시를 산업 표준 전략으로 전환하는 움직임입니다. 저는 이 패턴을 이전에도 본 적이 있습니다. 플랫폼이 기본값(default)을 통제하면, 생태계는 원하든 원하지 않든 결국 그 뒤를 따르게 됩니다.

규모에 대한 관점을 제공하자면: 에이전트 방식의 채택은 비주류의 도박이 아닙니다. Gartner는 2024년 1% 미만에서 2028년까지 기업용 소프트웨어 애플리케이션의 33%가 에이전트 AI를 포함할 것이라고 예측합니다 — 이것이 바로 지금 조정 계층 (coordination layer)을 소유하는 것이 중요한 이유입니다. 신흥 에이전트 인프라 스택에 대한 a16z의 독립적인 벤처 분석 또한 투자 측면에서 동일한 결론에 도달합니다: 지속 가능한 가치는 모델이 아니라 오케스트레이션 계층 (orchestration layer)으로 이동하고 있다는 것입니다.

에이전트로 승리하고 있는 기업들은 최고의 모델을 가진 기업이 아닙니다. 그들은 AI 조정 격차 (AI Coordination Gap)를 메운 기업들입니다. Google은 방금 그것을 API로 출시했습니다.

가장 중대한 사실은 이것입니다: Google은 단순히 또 다른 엔드포인트 (endpoint)를 추가하는 것이 아닙니다. 기본값을 _교체_하고 있는 것입니다. Google 규모의 플랫폼이 모든 문서, 모든 SDK, 그리고 모든 파트너 통합을 단일 통합 인터페이스로 이동시킬 때, 이는 AI 기술의 미래가 stateless (무상태) 요청/응답 방식이 아니라, 기본적으로 agentic (에이전트 방식) 및 stateful (상태 유지) 방식이 될 것이라는 데 베팅하는 것입니다. 이는 향후 모든 Gemini 기반 시스템이 어떻게 설계되어야 하는지를 재정의합니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

이것은 무엇인가: 비전문가를 위한 Interactions API 설명

여러분이 구축한 모든 AI 앱을 전화 통화라고 생각해 보세요. 기존 방식인 클래식한 chat-completions 스타일 API는 마치 완전한 기억상실증에 걸린 사람에게 전화를 거는 것과 같습니다. 매번 대화 전체를 다시 설명하고, 모든 문서를 다시 첨부하며, 사용 가능한 모든 도구를 다시 설명해야 합니다. 모델은 답변을 합니다. 그러고 나면 모든 것을 잊어버립니다. 개발자인 여러분은 매 턴마다 세상의 모든 정보를 기억하고 다시 전송해야 하는 책임을 집니다. 저는 3년 동안 이 일을 해왔습니다. 매우 지루한 작업입니다. 토큰 비용(token bills)도 끔찍합니다.

Interactions API는 이 모델을 완전히 뒤집습니다. 이는 Google의 서버가 여러분을 대신해 메모리를 보유하는(

Interactions API는 기존의 4~5개로 분리되어 있던 시스템을 하나로 통합합니다. Google의 발표에 따르면, Managed Agent (관리형 에이전트)를 프로비저닝하기 위한 단 한 번의 API 호출만으로 **에이전트가 추론(reasoning)하고, 코드를 실행하며, 웹을 브라우징하고, 파일을 관리할 수 있는 원격 Linux 샌드박스(remote Linux sandbox)**가 생성됩니다. 기본적으로 Antigravity agent가 제공되며, 사용자는 지침(instructions), 기술(skills), 데이터 소스(data sources)를 사용하여 자신만의 커스텀 에이전트를 정의할 수 있습니다.

이 메커니즘은 하나의 인터페이스를 공유하는 세 가지 모드로 깔끔하게 나뉩니다:

Model mode (모델 모드) — 모델 ID를 전달하여 추론(inference)을 수행합니다. 상태 비저장(Stateless) 또는 상태 유지(stateful) 방식 중 선택할 수 있습니다.
Agent mode (에이전트 모드) — 에이전트 ID를 전달하면 서버가 도구(tools)를 갖춘 샌드박스 내부에서 자율 루프(autonomous loop)를 실행합니다.
Background mode (백그라운드 모드) — 모든 호출에서 background=True로 설정하면 서버가 상호작용을 비동기(asynchronously)로 실행하므로, 오래 걸리는 작업이 클라이언트를 차단하지 않습니다.

단일 Interactions API 호출이 어떻게 자율 에이전트 실행이 되는가

  1

    **클라이언트 요청 → Interactions API 엔드포인트**

단 한 번의 호출을 보냅니다. 추론을 위한 모델 ID 또는 자율 작업을 위한 에이전트 ID를 포함합니다. 오래 걸리는 작업의 경우 선택적으로 background=True를 설정합니다. 대화 기록(conversation history)을 다시 보낼 필요가 없습니다. 서버가 상태(state)를 보유하기 때문입니다.

↓

  2
...

API가 기존의 상호작용 상태(interaction state), 연결된 데이터 소스 및 기술을 로드합니다. 기존에는 여러분의 앱 내에 존재했던 조정(coordination) 작업이 이제 Google의 서버에서 이루어지는 단계입니다.

↓

  3
...

단 한 번의 호출로 원격 Linux 샌드박스가 프로비저닝됩니다. 기본 Antigravity 에이전트 또는 사용자의 커스텀 에이전트는 추론하고, 코드를 실행하며, 웹을 브라우징하고, 파일을 관리할 수 있습니다.

↓

  4
...

내장된 도구(built-in tools)가 동일한 루프 내에서 커스텀 도구와 혼합되어 작동합니다. 멀티모달 생성(Multimodal generation, 곧 출시될 Gemini Omni 포함)은 별도로 덧붙여진 것이 아니라 네이티브하게 처리됩니다.

↓

  5
...

background=True를 사용하면 서버가 비동기적으로 실행됩니다. 클라이언트는 폴링(polling)하거나 알림을 받은 후 최종 상태를 가져옵니다. 연결을 계속 유지하거나 계속 지켜보고 있을 필요가 없습니다.

이 순서가 중요한 이유는 2~5단계가 이전에는 별개의 시스템에서 여러분이 직접 수행해야 했던 작업이었기 때문입니다. Interactions API는 이러한 AI 조정 격차(AI Coordination Gap)를 서버 측에서 해결합니다.

Architecture diagram showing Interactions API routing model inference and agent sandbox execution from one endpoint

Interactions API는 추론 (inference), 상태 유지 세션 (stateful sessions), 에이전트 샌드박스 (agent sandboxes), 그리고 백그라운드 작업 (background jobs)을 하나의 인터페이스 뒤로 통합하며, 이는 AI 조정 격차를 해소하는 아키텍처의 핵심입니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

모델이 아닌 여러분의 애플리케이션이 상태를 기억하거나, 실패한 도구 호출 (tool calls)을 재시도하거나, 샌드박스 (sandbox)를 마샬링 (marshal)하거나, 백그라운드 작업들을 하나로 엮어야 하는 모든 지점이 바로 AI 조정 격차 내부의 지점입니다. Interactions API의 전체 가치 제안은 이러한 지점들을 여러분의 코드베이스에서 Google의 서버로 옮기는 것입니다.

전체 기능 목록: Interactions API가 할 수 있는 모든 것

Google의 GA (General Availability) 발표에 엄격히 근거하여, 확인된 기능 세트는 다음과 같습니다:

단일 통합 엔드포인트 (Single unified endpoint) — Gemini 모델과 에이전트(agents) 모두를 위한 통합 엔드포인트.
서버 측 상태 (Server-side state) — API가 대화 및 상호작용 상태를 유지하므로 사용자가 직접 관리할 필요가 없습니다.
백그라운드 실행 (Background execution) — 모든 호출에서 background=True로 설정하면 서버가 상호작용을 비동기적으로 실행합니다.
관리형 에이전트 (Managed Agents) — 단 한 번의 API 호출로 에이전트가 추론(reasoning), 코드 실행, 웹 브라우징 및 파일 관리를 수행할 수 있는 원격 Linux 샌드박스(sandbox)를 프로비저닝합니다.
Antigravity 기본 에이전트 — 즉시 사용 가능한 상태로 제공되며, 지침(instructions), 기술(skills), 데이터 소스(data sources)를 통해 커스텀 에이전트를 정의할 수 있습니다.
도구 조합 (Tool combination) — 내장된 도구와 사용자의 자체 도구를 단일 상호작용 내에서 혼합하여 사용할 수 있습니다.
멀티모달 생성 (Multimodal generation) — 별도로 덧붙인 것이 아닌 네이티브(native) 방식입니다.
Gemini Omni — 곧 출시될 예정이라고 발표되었습니다.
안정적인 스키마 (Stable schema) — GA(General Availability)는 API 계약(contract)이 사용자 환경에서 깨지지 않음을 의미합니다.
적은 코드 양의 인터페이스 (Few-lines-of-code surface) — "모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드만으로 이를 달성할 수 있습니다."

단 한 번의 API 호출로 코드 실행, 웹 브라우징, 파일 관리를 포함하는 전체 Linux 샌드박스를 프로비저닝하는 기능은 과거에는 인프라 팀 전체가 필요했던 역량입니다. 이제는 단 하나의 파라미터(parameter)로 가능합니다.

AI 기술 조정 격차: Google Interactions API의 GA(General Availability) 달성

요약

핵심 포인트

AI 조정 격차 (The AI Coordination Gap)

개요: 이번 AI 기술 발표가 실제로 출시한 것

이것은 무엇인가: 비전문가를 위한 Interactions API 설명

AI 조정 격차 (The AI Coordination Gap)

전체 기능 목록: Interactions API가 할 수 있는 모든 것

액세스 및 사용 방법: 단계별 안내

댓글