Google Interactions API: Gemini 에이전트를 통합하는 AI 기술 (가격, LangGraph 비교 및 실습 코드)

원래 twarx.com에서 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 26일

Google Interactions API와 경쟁 에이전트 스택을 사용하는 대부분의 팀은 잘못된 문제를 해결하고 있습니다. 그들은 어떤 모델이 가장 똑똑한지에 집착하는 반면, 에이전트의 성공 여부를 실제로 결정하는 화려하지 않은 기반 시설인 상태 (state), 조정 (coordination), 그리고 실행 라이프사이클 (execution lifecycle)은 무시합니다. 세계에서 가장 똑똑한 AI 기술 스택이라 할지라도, 조정 레이어 (coordination layer)가 임시방편으로 유지되고 있다면 프로덕션 환경에서는 실패합니다. 이 이야기의 핵심은 단순한 지능이 아니라 바로 그 격차에 있습니다.

오늘 Google은 Interactions API가 일반 사용 가능 (GA) 단계에 도달했으며, 이제 Gemini 모델과 에이전트를 위한 주요 인터페이스가 되었다고 발표했습니다. 이 API는 2025년 12월에 퍼블릭 베타로 출시되었으며, GA를 통해 안정적인 스키마 (schema)와 함께 관리형 에이전트 (Managed Agents), 백그라운드 실행 (background execution), 그리고 Gemini Omni (곧 출시 예정)를 제공합니다.

이 글을 읽고 나면 무엇이 변했는지, 어떻게 사용하는지, 실제 비용은 얼마인지, 그리고 Google Interactions API가 LangGraph, AutoGen, CrewAI보다 우세한 지점이 어디인지 실습 코드 예제와 실제 비용 계산을 통해 정확히 이해하게 될 것입니다.

빠른 참조

Google Interactions API란 무엇인가 (한 단락 요약)

Google Interactions API는 Gemini 모델 및 에이전트와 상호작용하기 위한 단일 통합 엔드포인트(endpoint)입니다. 2025년 12월 퍼블릭 베타(public beta) 출시 이후, 2026년 6월 26일에 정식 출시(general availability)되었습니다. 이 API는 기존의 상태 비저장(stateless) 방식인 Gemini chat-completions 패턴을 대체하여 Google의 주요 인터페이스 역할을 수행하며, 상태 지속성(state persistence), 도구 루프(tool loops), 재시도(retries), 그리고 장기 실행 작업 관리(long-running job management)를 애플리케이션 코드에서 Google의 서버로 이전합니다. 이는 Ali Çevik (Google DeepMind, Group Product Manager)와 Philipp Schmid (Google DeepMind, Developer Relations Engineer)에 의해 공동 발표되었습니다. 핵심 기능으로는 서버 측 상태 관리(server-side state), 백그라운드 실행 (모든 호출에서 set background=True 설정), 도구 결합(tool combination), 그리고 단 한 번의 API 호출로 추론, 코드 실행, 웹 브라우징, 파일 관리가 가능한 원격 Linux 샌드박스(sandbox)를 프로비저닝하는 관리형 에이전트(Managed Agents)가 있습니다. Antigravity 에이전트가 기본값으로 제공됩니다. 요청은 세 가지 기본 요소(primitives)로 라우팅합니다: 추론을 위한 모델 ID(model ID), 자율 작업을 위한 에이전트 ID(agent ID), 그리고 장기 실행 작업을 위한 백그라운드 플래그(background flag)입니다. Gemini Omni 멀티모달 생성(multimodal generation)은 곧 출시될 예정(coming soon)으로 표시되어 있습니다.

Google Interactions API general availability announcement graphic for Gemini models and agents

Google의 Interactions API는 2026년 6월 26일에 정식 출시되어 Gemini 모델 및 에이전트를 위한 주요 인터페이스가 되었습니다. 출처

Coined Framework

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)는 개별 모델의 성능은 뛰어나지만, 대부분의 시스템이 주변 라이프사이클(lifecycle)을 관리하는 방식은 매우 미흡하여 발생하는 간극이 점점 벌어지는 현상을 의미합니다. 이는 간과된 네 가지 작업, 즉 상태 지속(persisting state), 도구 결합(combining tools), 백그라운드 작업 실행(executing work in the background), 그리고 에이전트 프로비저닝(provisioning agents)을 포괄합니다. 이는 최첨단 모델(frontier models)로 가득 찬 스택이 왜 여전히 프로덕션 환경에서 실패하는지를 설명합니다. 즉, 지능(intelligence)의 문제는 해결되었지만, 조정(coordination)의 문제는 해결되지 않았기 때문입니다.

Google Interactions API 개요: Google이 오늘 실제로 출시한 것

Google DeepMind의 Ali Çevik (Group Product Manager)와 Philipp Schmid (Developer Relations Engineer)가 이번 GA(General Availability, 일반 가용성) 발표를 공동 작성했습니다. 핵심 내용은 다음과 같습니다. Interactions API가 이제 서버 측 상태(server-side state), 백그라운드 실행(background execution), 도구 조합(tool combination), 그리고 멀티모달 생성(multimodal generation) 기능을 갖춘 Gemini 모델 및 에이전트를 위한 단일 통합 엔드포인트(unified endpoint)가 되었다는 점입니다.

이것은 이제 여러 API 중 하나가 아닙니다. Gemini와 상호작용하기 위한 Google의 주요(primary) API입니다. 이제 모든 문서의 기본값은 이 API로 설정되었으며, Google은 서드파티 SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들기 위해 생태계 파트너들과 적극적으로 협력하고 있습니다. 마지막 부분은 대부분의 사람들이 그냥 지나칠 문장입니다. 벤더가 *전체 문서 영역(entire documentation surface)*을 단일 엔드포인트로 재라우팅한다는 것은, 단순한 기능 추가가 아니라 장기적인 아키텍처 측면의 베팅을 의미합니다.

작동 방식은 가장 좋은 의미에서 의도적으로 지루할 만큼 단순합니다. 추론(inference)을 위한 모델 ID(model ID)를 전달하고, 자율 작업(autonomous tasks)을 위한 에이전트 ID(agent ID)를 전달하며, 오래 걸리는 작업에는 background=True를 설정하면 됩니다. 세 가지 기본 요소(primitives)뿐입니다. 그 단순함이 바로 이 제품의 핵심입니다.

2025년 12월 베타 이후 추가된 네 가지 GA 사항은 다음과 같습니다:

Managed Agents (관리형 에이전트): 단 한 번의 API 호출로 에이전트가 추론(reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스(sandbox)를 프로비저닝합니다. Antigravity 에이전트가 기본값으로 제공되며, 지침(instructions), 기술(skills), 데이터 소스(data sources)를 사용하여 커스텀 에이전트를 정의할 수 있습니다.
Background execution (백그라운드 실행): 모든 호출에 background=True를 설정하면 서버가 상호작용을 비동기(asynchronously)로 실행합니다.
Tool improvements (도구 개선): 발표 내용에 따라 내장된 도구들을 혼합하여 사용할 수 있습니다.
Gemini Omni (곧 출시 예정): 향후 출시될 예정으로 표시된 멀티모달 생성(multimodal generation) 기능입니다.

이것이 지금 당장 왜 중요할까요? LangGraph, AutoGen, CrewAI를 포함한 에이전트 생태계 전체가 지난 2년 동안 상태(state)와 실행 라이프사이클(execution lifecycle)을 상태가 없는(stateless) 채팅 완성(chat completions) 기능 위에 덕테이프로 붙여가며 간신히 유지해 왔습니다. Google은 이러한 가설 구조(scaffolding)를 플랫폼 레이어(platform layer)로 통합하고 있습니다. 만약 당신이 프로덕션 환경에서 멀티 에이전트 시스템 (multi-agent systems)을 운영하고 있다면, 당신의 아키텍처 다이어그램은 더 단순해졌거나, 혹은 경쟁사의 다이어그램이 더 단순해졌을 것입니다.

AI 기술로 승리하는 기업은 가장 똑똑한 모델을 가진 기업이 아닙니다. 상태 관리(state management)를 다섯 번째로 다시 구축하는 것을 멈춘 기업입니다.

2025년 12월
Interactions API 공개 베타 출시
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

Interactions API란 무엇인가? Gemini 에이전트 오케스트레이션(Orchestration)을 쉬운 언어로 설명

만약 당신이 채팅 완성(chat-completions) API를 사용해 본 적이 있다면, 모델이 상태가 없다(stateless)는 사실을 이미 알고 있을 것입니다. 서버는 아무것도 기억하지 못하기 때문에, 매 호출마다 전체 대화 기록을 전송해야 합니다. 당신이 직접 메모리(memory)를 구축해야 합니다. 도구 루프(tool loop)를 구축해야 합니다. 재시도 로직(retry logic)을 구축해야 합니다. HTTP 요청이 타임아웃될 때 20분짜리 작업이 소멸되지 않도록 작업을 보관할 장소도 직접 구축해야 합니다. 저도 이 모든 일을 해봤습니다. 여러 번 말이죠. 어려운 일은 아닙니다. 다만 지루할 뿐이며, 몇 달마다 새로운 방식으로 문제가 발생하곤 합니다.

Interactions API는 그 작업을 Google의 서버로 옮깁니다. 쉽게 말해, 기존 방식으로는 제대로 수행할 수 없었던 네 가지 기능을 수행하는 단일 관문(front door)입니다:

서버 측 상태 (Server-side state): 대화 및 에이전트 컨텍스트 (agent context)가 귀하의 앱 메모리나 벡터 데이터베이스 (vector database) 글루 코드 (glue code)가 아닌 Google의 인프라에 저장됩니다.
백그라운드 실행 (Background execution): 연결을 계속 감시할 필요 없이 긴 작업들이 비동기적으로 실행됩니다.
도구 조합 (Tool combination): 내장된 도구들이 귀하의 자체 도구들과 혼합되어 사용됩니다.
멀티모달 생성 (Multimodal generation): 현재는 텍스트를 지원하며, 곧 Gemini Omni를 통해 하나의 엔드포인트 (endpoint)로 더 많은 모달리티 (modalities)를 지원할 예정입니다.

API 문서에 익숙하지 않은 소상공인이라면 다음과 같이 생각해보세요. 방을 나가는 순간 모든 것을 잊어버리는 임시직 직원을 고용하는 것과, 프로젝트 파일을 보관하고 하던 작업에서 바로 이어서 진행하며, 귀하가 옆에서 지켜보지 않아도 웹 서핑이나 코드 실행 같은 심부름을 하러 잠시 나갈 수 있는 계약직 업체를 고용하는 것의 차이와 같습니다. 기존 API가 임시직이었다면, Interactions API는 자신만의 작업실을 가진 계약직 업체이며, 그 작업실이 바로 원격 Linux 샌드박스 (sandbox)입니다.

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap) (적용 사례)

컨텍스트를 기억하거나, 도구를 재시도하거나, 긴 작업을 보관하기 위해 작성하는 코드 한 줄 한 줄은 '조정 격차 (Coordination Gap)' 때문에 지불해야 하는 세금과 같습니다. Interactions API는 Google이 플랫폼 계층에서 귀하를 대신해 그 세금을 지불하는 것이며, 이것이 바로 이 API가 그들의 주요 인터페이스가 된 정확한 이유입니다.

Diagram comparing stateless chat completions API versus stateful Interactions API with server-side memory

상태가 없는 완료 (stateless completions) 방식에서 서버 측 상태 (server-side state) 방식으로의 전환은 Interactions API가 Gemini 빌더들을 위한 AI 조정 격차를 해소하는 핵심 이유입니다.

Google Interactions API 작동 방식: 아키텍처 및 요청 흐름

Interactions API는 세 가지 라우팅 결정이 가능한 하나의 엔드포인트를 노출합니다. 추론 (inference)을 실행하거나 (model ID), 자율 작업 (autonomous task)을 실행하거나 (agent ID), 또는 이 중 하나를 백그라운드에서 수행할 수 있습니다 (background=True). 플랫폼은 그 사이의 모든 과정을 처리합니다.

Interactions API 요청 생명주기 (model + agent + background)

  1

    **통합 엔드포인트에 대한 클라이언트 호출**

사용자의 앱은 단 하나의 요청을 보냅니다. 이 요청에는 모델 ID (예: 추론을 위한 Gemini 모델) 또는 에이전트 ID (예: Antigravity 에이전트)가 포함되며, 선택적으로 background=True를 설정할 수 있습니다.

↓

  2
...

Google은 저장된 상호작용 컨텍스트 (interaction context)를 검색합니다. 전체 히스토리를 다시 보낼 필요가 없습니다. 서버가 이미 이를 보유하고 있기 때문입니다. 이는 수동으로 컨텍스트 윈도우 (context window)를 조절하던 시대의 종말을 의미합니다.

↓

  3
...

모델 ID → 직접 추론 (direct inference). 에이전트 ID → 에이전트가 추론(reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스 (sandbox)가 프로비저닝됩니다.

↓

  4
...

내장 도구 (built-in tools)가 사용자의 커스텀 도구 및 데이터 소스와 결합됩니다. 오케스트레이션 루프 (orchestration loop)는 애플리케이션 코드가 아닌 서버 측에서 실행됩니다.

↓

  5
...

background 설정이 없는 경우: 응답이 인라인 (inline)으로 반환됩니다. background=True인 경우: 서버가 비동기적으로 실행되며, 사용자는 나중에 결과를 폴링 (poll)하거나 수신합니다. 연결을 계속 유지할 필요가 없습니다.

이 시퀀스가 중요한 이유는 상태 조회 (step 2)와 백그라운드 핸드오프 (step 5)가 현재 모든 에이전트 프레임워크가 제대로 구현하지 못하고 있는 두 가지 요소이기 때문입니다.

이번 발표에서 가장 과소평가된 단 한 줄은 바로 이것입니다: background=True는 모든 호출에서 작동한다는 점입니다. 이 플래그 하나만으로 'HTTP 요청이 60초에서 타임아웃되어 에이전트 작업이 중단되었다'는 범주의 문제들을 완전히 제거합니다. 이는 환각 (hallucination) 현상보다 더 많은 에이전트 데모를 망가뜨리는 실패 모드입니다. 저는 클라이언트 리뷰에서 이 현상이 발생하는 것을 인정하고 싶지 않을 만큼 자주 목격해 왔습니다.

확인된 사항과 암시된 사항을 정확히 구분할 필요가 있습니다. 확인된 사항 (Confirmed): 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), Linux 샌드박스(sandbox)를 포함한 관리형 에이전트 (Managed Agents), Antigravity 기본 에이전트, 지침/기술/데이터 소스를 포함한 커스텀 에이전트 (custom agents), 그리고 도구 혼합 (tool mixing)입니다. 곧 출시 예정 (아직 GA 아님): Gemini Omni 멀티모달 생성 (multimodal generation)입니다. 공식 문서에는 토큰당 구체적인 가격이나 지연 시간(latency) 벤치마크가 게시되어 있지 않으므로, 현재 이 특정 API에 대해 정확한 달러 수치를 주장하는 글은 모두 추측입니다. 저는 숫자를 지어내는 대신, 아래에서 방어 가능한 비용 프레임워크 (cost framework)를 제공하겠습니다.

전체 기능 목록: Interactions API가 할 수 있는 모든 것

GA 발표에 엄격히 근거하여: