Google Interactions API: Gemini 모델과 에이전트를 통합하는 AI 기술

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 27일

대부분의 AI 기술 워크플로우 (workflows)는 완전히 잘못된 문제를 해결하고 있습니다.

2026년 6월 27일, Google은 자사의 Interactions API가 일반 사용 가능(General Availability, GA) 상태에 도달했으며, Gemini 모델과 에이전트(agents)를 위한 기본 인터페이스가 되었다고 발표했습니다. 이는 서버 측 상태(server-side state), 백그라운드 실행(background execution), 그리고 관리형 에이전트(Managed Agents)를 갖춘 단일 통합 엔드포인트(endpoint)입니다. 이것은 팀이 구축하는 방식을 조용히 재설정하는 종류의 AI 기술입니다. 이 글을 읽고 나면 무엇이 출시되었는지, 어떻게 작동하는지, 비용은 얼마인지, LangGraph 및 AutoGen과 어떻게 비교되는지, 그리고 왜 이것이 제가 'AI 조정 격차 (AI Coordination Gap)'라고 부르는 구조적 결함을 드러내는지 정확히 이해하게 될 것입니다.

Google Interactions API general availability announcement graphic showing unified endpoint for Gemini models and agents

Google의 공식 Interactions API GA 발표 — 서버 측 상태와 백그라운드 실행을 갖춘 Gemini 모델 및 에이전트를 위한 단일 엔드포인트. 출처: Google

여기 시니어 엔지니어들이 고통스러운 대가를 치르며 계속해서 다시 배우게 되는 역설적인 진실이 있습니다. AI 에이전트로 승리하는 기업은 가장 많은 GPU를 보유하거나 가장 영리한 프롬프트 (prompts)를 가진 기업이 아니라, '조정 (coordination)' 문제를 해결한 기업입니다. Google은 방금 이 사실을 공개적으로 인정하는 AI 기술을 출시했습니다. Interactions API의 전체적인 핵심은 모델과 에이전트 전반에 걸쳐 상태 관리 (managing state), 오케스트레이션 (orchestration), 그리고 장기 실행 (long-running execution)을 관리하는 것이 진짜 작업이며, 바로 그 작업 단계에서 대부분의 스택 (stacks)이 조용히 무너진다는 것입니다.

고안된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 개별 모델이 단일 호출 (single calls)에서 보여주는 성능과, 대부분의 시스템이 여러 호출에 걸쳐 상태 (state), 도구 (tools), 그리고 장기 실행 작업 (long-running tasks)을 조정하는 방식 사이의 벌어지는 간극을 의미합니다. 이는 팀들이 모델을 최적화하는 데만 집중한 나머지, 실제 신뢰성을 결정짓는 오케스트레이션 계층 (orchestration layer)을 간과할 때 발생하는 시스템적 실패를 지칭합니다.

발표된 내용 — 정확한 사실 관계

2026년 6월 27일, Google DeepMind는 The Keyword (blog.google)를 통해 Interactions API가 **일반적으로 사용 가능한 상태 (general availability, GA)**에 도달했으며, 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 **주요 API (primary API)**가 되었다고 발표했습니다. 이 발표문은 Google DeepMind의 그룹 제품 매니저 (Group Product Manager)인 Ali Çevik과 Google DeepMind의 개발자 관계 엔지니어 (Developer Relations Engineer)인 Philipp Schmid가 작성했습니다.

공식 게시물에 따르면, 이 API는 2025년 12월에 퍼블릭 베타 (public beta)로 출시되었으며, 'Gemini를 활용하여 애플리케이션을 구축하려는 개발자들이 가장 선호하는 방식이 빠르게 자리 잡았습니다.' 이번 GA 릴리스는 **안정적인 스키마 (stable schema)**와 함께, 개발자들이 요청했던 몇 가지 주요 신규 기능들을 제공합니다: **관리형 에이전트 (Managed Agents), 백그라운드 실행 (background execution), Gemini Omni (출시 예정), 그리고 도구 개선 (tool improvements)**입니다. Google의 출시 주기 내에서 이것이 어떤 위치를 차지하는지에 대한 더 넓은 맥락은 에이전트 런타임 (agent-runtime) 경쟁에 관한 TechCrunch 및 The Verge의 보도를 참조하십시오.

엔지니어들에게 가장 중요한 두 가지 구조적 선언이 있습니다. 첫째, Google의 모든 문서가 이제 Interactions API를 기본값 (default)으로 합니다. 둘째, Google은 '제3자(3P) SDK 및 라이브러리 전반에 걸쳐 이를 기본 인터페이스로 만들기 위해 생태계 파트너들과 협력하고 있습니다.' 이는 Google이 Gemini를 위한 단일 관문 (single front door)을 선언한 것이며, 별도의 모델 API와 에이전트 API를 번갈아 가며 사용하던 사고 모델 (mental model)을 폐기(deprecating)한다는 것을 의미합니다. 하나의 문. 모든 것이 그 문을 통합니다.

2025년 12월
Interactions API 퍼블릭 베타 출시
Google, 2026
...

Google은 이번 주에 더 나은 모델을 출시한 것이 아닙니다. 그들은 모델을 조정(coordinate)하는 더 나은 방법을 출시했습니다. 그리고 이것은 업계가 어디로 향하고 있는지에 대한 더 강력한 신호입니다.

이것은 무엇인가: 쉬운 언어로 설명하기

전문 용어를 걷어내고 보면, Interactions API는 애플리케이션이 Gemini에게 무엇이든 시키고 싶을 때마다 통신하는 하나의 웹 주소 — 즉, 하나의 엔드포인트 (endpoint)입니다. 질문에 답하기, 코드 실행하기, 웹 브라우징하기, 파일 관리하기, 혹은 20분 동안 실행되는 작업에 대해 자율 에이전트 (autonomous agent)로서 작동하기 등 무엇이든 상관없습니다. 동일한 주소를 사용합니다.

이전에는 개발자들이 보통 두 개의 상자로 생각했습니다. 첫 번째 상자: '모델 호출 (call the model)' — 프롬프트 (prompt)를 보내고, 응답을 받고, 대화 기록 (conversation history)을 직접 관리하는 것. 두 번째 상자: '에이전트 실행 (run an agent)' — 별도의 프레임워크 (framework)를 구축하고, 도구 (tools)를 연결하고, 어딘가에 상태 (state)를 유지하며, 오래 걸리는 작업을 관리하는 것. Interactions API는 이 두 상자를 하나로 통합합니다. 공식 게시물에서 언급했듯이: '모델을 호출하든 에이전트를 실행하든, Interactions API는 단 몇 줄의 코드로 이를 가능하게 합니다. 추론 (inference)을 위해 모델 ID를 전달하거나, 자율 작업 (autonomous tasks)을 위해 에이전트 ID를 전달하고, 오래 걸리는 작업에는 background=True를 설정하십시오.'

소상공인을 위한 비유를 들자면 다음과 같습니다: 예전에는 간단한 질문을 위해 통역사를 고용하고, 며칠씩 걸리는 큰 프로젝트를 위해 별도의 프로젝트 매니저를 고용하여 두 경우 모두 직접 노트를 작성하며 관리했다고 상상해 보세요. Interactions API는 대화 전체를 기억하고, 빠른 답변과 긴 백그라운드 프로젝트 사이를 전환할 수 있으며, 자신만의 도구와 작업 공간을 가져오는 단 한 명의 비서와 같습니다. 당신은 더 이상 서류 보관함 역할을 할 필요가 없습니다.

'서버 측 상태 (server-side state)'라는 문구는 조용하지만 핵심적인 헤드라인입니다. 이는 이제 Google이 사용자의 대화와 작업 컨텍스트 (context)를 자신들의 서버에 저장한다는 것을 의미하며, 이를 통해 당신은 매 앱마다 메모리를 직접 수동으로 구축할 필요가 없어집니다. 이 단 한 번의 변화로 프로덕션 환경에서 에이전트 버그를 일으키는 상위 3가지 원인 중 하나를 제거할 수 있습니다.

작동 방식 — 쉬운 언어로 설명하는 메커니즘

Interactions API는 당신이 _무엇_을 원하는지 (모델 ID 또는 에이전트 ID), 어떻게 실행하기를 원하는지 (동기 방식 또는 background=True를 통한 비동기 방식), 그리고 어떤 도구를 사용할 수 있는지를 지정하는 하나의 요청을 수락합니다. 그런 다음 상태 유지 (keeping state), 도구 실행, 긴 작업 수행, 결과 반환과 같은 복잡한 중간 과정을 처리합니다. 당신은 더 이상 오케스트레이션 루프 (orchestration loop)를 소유할 필요가 없습니다. Google이 이를 담당합니다. 이것이 바로 이 AI 기술을 단순한 모델 API와 구분 짓는 지점입니다.

GA (General Availability) 발표에서 언급된 네 가지 기계적 기둥은 다음과 같습니다:

서버 측 상태 (Server-side state) — 컨텍스트 (context)가 당신의 앱 내 취약한 메모리 계층이 아닌 Google의 서버에 존재합니다.
백그라운드 실행 (Background execution) — 공식 게시물에 따르면, background=True로 설정하면 '서버가 비동기적으로 상호작용을 실행'합니다. 당신은 연결을 몇 분 동안 열어두는 대신, 상태를 확인(poll)할 수 있는 핸들 (handle)을 받게 됩니다.
관리형 에이전트 (Managed Agents) — '단 한 번의 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (sandbox)를 프로비저닝합니다.' Antigravity 에이전트가 기본값으로 제공되며, 지침, 기술 및 데이터 소스를 사용하여 커스텀 에이전트를 정의할 수 있습니다.
도구 조합 및 멀티모달 생성 (Tool combination & multimodal generation) — 단일 상호작용 내에서 내장된 도구들을 혼합하여 사용할 수 있으며, 곧 Gemini Omni 멀티모달 생성 기능이 도입될 예정입니다.

Interactions API의 단일 호출이 요청에서 결과로 흐르는 방식

  1

    **클라이언트 요청 (단일 엔드포인트)**

당신의 앱은 단 한 번의 호출을 보냅니다: 추론을 위한 모델 ID 또는 자율 작업을 위한 에이전트 ID, 그리고 선택 사항인 도구와 백그라운드 플래그 (flag)를 포함합니다. 별도의 SDK 분기 처리는 필요하지 않습니다.

↓

  2
...

이 API는 모델 ID에 대해 직접적인 Gemini 추론 (inference) 경로를 라우팅하거나, 에이전트 ID에 대해 관리형 에이전트 (Managed Agent) 경로를 제공합니다. 결정 과정이 추론에 미치는 지연 시간 (latency)은 무시할 수 있는 수준이며, 에이전트 프로비저닝 (provisioning) 시에는 원격 Linux 샌드박스 (sandbox)를 실행합니다.

↓

  3
...

이전 대화/작업 컨텍스트는 서버 측에서 로드됩니다. 매번 전체 히스토리를 전달할 필요는 없습니다. Google이 이를 유지 (persist)하기 때문입니다. 이는 기존에 수동으로 구현하던 메모리 레이어 (memory layers)에서 정보가 유출되곤 했던 지점입니다.

↓

  4
...

기본값: 결과가 인라인 (inline)으로 반환됩니다. background=True 설정 시: 서버가 비동기적으로 실행되며 폴링 (poll)할 수 있는 핸들 (handle)을 반환합니다. 이는 연결 타임아웃 (connection timeouts)을 초과하는 수 분 단위의 에이전트 작업 (agentic tasks)에 이상적입니다.

↓

  5
...

관리형 에이전트 (Managed Agents)는 프로비저닝된 Linux 샌드박스 내부에서 추론 (reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리한 다음, 다음 턴을 위해 상태 (state)가 보존된 통합된 결과를 반환합니다.

단계 3과 4 — 서버 측 상태 관리와 백그라운드 실행 — 가 매우 중요하기 때문인데, 이는 대부분의 팀이 (서투르게) 직접 구축하곤 하는 조정 (coordination) 문제 그 자체이기 때문입니다.

Architecture diagram showing Interactions API unified endpoint routing to Gemini inference and Managed Agent Linux sandbox

Interactions API 아키텍처는 상태와 오케스트레이션 (orchestration)을 각 애플리케이션에 맡기는 대신 서버 측으로 이동시킴으로써 AI 조정 격차 (AI Coordination Gap)를 해소합니다.

AI 조정 격차 (The AI Coordination Gap) — 그리고 대부분의 사람들이 실수하는 것

이번 출시가 리더보드(leaderboard)의 또 다른 벤치마크 점수보다 왜 더 중요한지를 설명하는 프레임워크는 다음과 같습니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차는 단일 호출 모델의 품질과 다중 호출 시스템의 신뢰성 사이의 간극을 의미합니다. 모델이 발전함에 따라 병목 현상은 지능에서 오케스트레이션 (orchestration)으로 이동합니다. 상태 관리, 재시도 (retries), 실행 라이프사이클 (execution lifecycle)을 무시한 채 프롬프트 튜닝에만 매달리는 팀은 데모에서는 똑똑해 보이지만 실제 운영 환경(production)에서는 실패하는 시스템을 출시하게 됩니다.

대부분의 사람들이 잘못 알고 있는 것: 그들은 신뢰성(reliability)이 모델의 문제라고 믿습니다. 하지만 그것은 압도적으로 조정(coordination)의 문제입니다. 각 단계의 신뢰성이 97%인 6단계 파이프라인(pipeline)은 엔드 투 엔드(end-to-end)로 보았을 때 신뢰성이 약 83%에 불과합니다 (0.97^6 ≈ 0.833). 여기에 일곱 번째 단계를 추가하면 81% 미만으로 떨어집니다. 대부분의 기업은 '99% 정확한' 에이전트가 실제 고객 세션 5번 중 1번꼴로 실패하는 상황, 즉 제품을 이미 출시한 후에 이 수학적 사실을 깨닫게 됩니다. 저는 이런 상황이 벌어지는 것을 셀 수 없이 많이 목격해 왔으며, 3개월 동안 프롬프트 튜닝(prompt-tuning)에 매달렸던 팀들은 항상 이 결과에 놀라곤 합니다. 오차 누적 원리(compounding-error principle)는 시스템 엔지니어링(systems engineering)과 파이프라인 신뢰성에 관한 학술 문헌 전반에 걸쳐 잘 문서화되어 있습니다.

Interactions API는 그 격차를 줄이기 위한 Google의 구조적 승부수입니다. 프레임워크를 다음 네 가지 명명된 계층(layer)으로 나눕니다:

계층 1 — 상태 계층 (The State Layer)

서버 측 상태(Server-side state)란 대화 및 작업 컨텍스트(context)를 사용자가 아닌 플랫폼이 책임진다는 것을 의미합니다. LangGraph나 AutoGen에서는 일반적으로 사용자가 체크포인터(checkpointer)나 메모리 저장소(memory store)를 직접 관리해야 하지만, 여기서는 Google이 이를 영구적으로 저장(persist)합니다. 이를 통해 재현하기 매우 어렵고 디버깅하기 미칠 듯이 짜증 나는 유형인 '컨텍스트 유실' 실패라는 카테고리 전체를 제거할 수 있습니다.

계층 2 — 실행 계층 (The Execution Layer)

백그라운드 실행(background=True)은 작업 지속 시간과 요청 타임아웃(request timeouts)을 분리합니다. 연구, 코드 생성, 멀티 툴 브라우징(multi-tool browsing)과 같은 긴 에이전트 작업들이 더 이상 HTTP 연결이 끊겼을 때 중단되지 않습니다. 대신 핸들(handle)을 폴링(poll)하면 됩니다. 단순한 아이디어지만, 실제로는 엄청난 차이를 만듭니다.

계층 3 — 에이전트 계층 (The Agent Layer)

관리형 에이전트(Managed Agents)는 공식 포스트에 따라 원격 Linux 샌드박스(sandbox)를 프로비저닝하며, 기본값으로 Antigravity 에이전트를 사용합니다. 커스텀 에이전트는 지침(instructions), 기술(skills), 데이터 소스(data sources)를 포함합니다. 이는 CrewAI나 AutoGen의 역할(roles)을 호스팅된 형태로 구현한 것과 가장 유사하지만, 관리형 방식입니다. 즉, 사용자가 직접 샌드박스를 프로비저닝하거나 모니터링할 필요가 없습니다.

계층 4 — 도구 계층 (The Tool Layer)

도구 결합(Tool combination)과 (곧 출시될) Gemini Omni의 멀티모달 생성(multimodal generation)은 도구와 모달리티(modalities)가 하나의 상호작용(interaction) 내에서 구성됨을 의미합니다. 이곳이 바로 MCP (Model Context Protocol)와 내장 도구(built-in tools)가 수렴하는 지점입니다.

만약 귀하의 에이전트 스택(agent stack)이 실제 비즈니스 로직보다 재시도(retries), 메모리(memory), 타임아웃 처리(timeout handling)에 더 많은 코드를 소비하고 있다면, 귀하는 'AI 조정 격차(AI Coordination Gap)'라는 세금을 지불하고 있는 것입니다. Interactions API는 Google이 벤더 종속(vendor lock-in)을 대가로 귀하를 대신해 그 세금을 지불하겠다고 제안하는 것입니다.

Google Interactions API: Gemini 모델과 에이전트를 통합하는 AI 기술

요약

핵심 포인트

AI 조정 격차 (The AI Coordination Gap)

발표된 내용 — 정확한 사실 관계

이것은 무엇인가: 쉬운 언어로 설명하기

작동 방식 — 쉬운 언어로 설명하는 메커니즘

AI 조정 격차 (The AI Coordination Gap) — 그리고 대부분의 사람들이 실수하는 것

AI 조정 격차 (The AI Coordination Gap)

계층 1 — 상태 계층 (The State Layer)

계층 2 — 실행 계층 (The Execution Layer)

계층 3 — 에이전트 계층 (The Agent Layer)

계층 4 — 도구 계층 (The Tool Layer)

댓글