원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 25일

대부분의 AI 기술 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 그들은 모델의 품질에 집착하지만, 실제 실패 모드는 조정 (Coordination) — 즉, 모델, 도구 (Tools), 상태 (State), 그리고 장기 실행 작업 (Long-running tasks) 사이의 복잡한 배관 작업에서 발생합니다. Google은 방금 해결책을 출시하며 이를 조용히 인정했습니다. 2026년 가장 중요한 AI 기술의 변화는 더 똑똑한 모델이 아니라, 모델을 연결하는 더 똑똑한 방식입니다.

오늘 Google은 자사의 Interactions API가 일반 가용성 (General Availability, GA) 단계에 도달했으며, 이제 Gemini 모델과 에이전트를 위한 주요 인터페이스가 되었다고 발표했습니다. 이는 서버 측 상태 (Server-side state), 백그라운드 실행 (Background execution), 도구 결합 (Tool combination), 그리고 관리형 에이전트 (Managed Agents)를 갖춘 단일 통합 엔드포인트 (Unified endpoint)입니다. 이 API는 2025년 12월에 공개 베타로 출시되었습니다.

이 글을 마칠 때쯤 여러분은 무엇이 출시되었는지, 아키텍처 (Architecture)가 실제로 어떻게 작동하는지, LangGraph나 AutoGen 대신 언제 사용해야 하는지, 그리고 프로덕션 (Production) 환경에서 실행하는 데 드는 실제 비용이 얼마인지 정확히 알게 될 것입니다.

Google Interactions API general availability announcement graphic showing unified Gemini endpoint architecture

Google의 Interactions API GA 발표 — 서버 측 상태와 백그라운드 실행을 갖춘 Gemini 모델 및 에이전트를 위한 단일 통합 엔드포인트. 출처: Google

Coined Framework

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 정답을 생성할 수 있는 모델과, 그 정답을 중심으로 상태(state), 도구(tools), 그리고 장기 실행 작업(long-running work)을 안정적으로 오케스트레이션(orchestrate)할 수 있는 시스템 사이의 구조적 거리입니다. 현대 AI 기술에서 발생하는 대부분의 프로덕션 실패는 모델의 가중치(weights)가 아니라 바로 이 격차에서 발생합니다.

개요: 발표 내용

2026년 6월 25일, Ali Çevik (Google DeepMind, Group Product Manager)와 Philipp Schmid (Google DeepMind, Developer Relations Engineer)는 Google AI Studio의 Interactions API가 정식 출시(general availability)되었음을 발표했습니다. 이번 발표의 핵심 주장은 점진적인 개선이 아닌 구조적인 변화입니다. 이제 Interactions API는 Gemini 모델 및 에이전트와 상호작용하기 위한 Google의 주요(primary) API가 됩니다.

발표에서 직접 확인된 사실은 다음과 같습니다:

2025년 12월 퍼블릭 베타 출시: Google에 따르면 'Gemini를 활용한 애플리케이션 구축을 위한 개발자들의 선호 방식으로 빠르게 자리 잡았습니다.'
GA(정식 출시)를 통한 안정적인 스키마(schema) 제공: 더 이상 계약(contract)이 예기치 않게 깨지지 않습니다.
관리형 에이전트 (Managed Agents): 단 한 번의 API 호출로 에이전트가 추론하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리할 수 있는 원격 Linux 샌드박스(sandbox)를 프로비저닝합니다. Antigravity 에이전트가 기본값으로 제공됩니다.
백그라운드 실행 (Background execution): 모든 호출에서 background=True를 설정하면 서버가 비동기(asynchronously) 방식으로 상호작용을 실행합니다.
도구 개선 (Tool improvements): 내장된 도구와 사용자 정의 도구를 혼합하여 사용할 수 있습니다.
Gemini Omni가 '곧' 출시될 예정입니다 (멀티모달 생성).
모든 Google 문서는 이제 Interactions API를 기본값으로 사용하며, Google은 생태계 파트너들과 협력하여 제3자 SDK 및 라이브러리 전반에서도 이를 기본값으로 만들기 위해 노력하고 있습니다.

이 메커니즘은 의도적으로 최소한의 구성만을 갖추고 있습니다. Google은 다음과 같이 설명합니다: '모델을 호출하든 에이전트 (agent)를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드만으로 이를 구현할 수 있습니다. 추론 (inference)을 위해 모델 ID를 전달하거나, 자율적인 작업을 위해 에이전트 ID를 전달하고, 오래 걸리는 작업에는 background=True를 설정하십시오.'

이 한 문장이 전체 논지입니다. Google은 역사적으로 분리되어 있던 세 가지 관심사 — 추론 (inference), 에이전트 자율성 (agentic autonomy), 그리고 비동기 실행 (async execution) — 를 세 개의 파라미터(parameter)를 가진 단일 엔드포인트 (endpoint)로 통합했습니다. 이는 AI 조정 격차 (AI Coordination Gap)에 대한 직접적인 아키텍처적 해답입니다. Gemini를 개발한 기업이 조정 계층 (coordination layer)을 자신의 주요 인터페이스 (interface)라고 선언할 때, LangChain부터 Anthropic에 이르기까지 모든 경쟁 AI 기술 스택 (technology stack)은 이를 기준으로 벤치마크를 받게 됩니다. 이는 과장이 아니라, 플랫폼의 기본값 (defaults)이 작동하는 방식입니다.

병목 현상은 결코 모델의 문제가 아니었습니다. 병목 현상은 항상 모델, 사용자의 도구 (tools), 상태 (state), 그리고 단일 HTTP 요청이 유지될 수 있는 시간보다 오래 걸리는 작업들 사이의 연결 (wiring) 문제였습니다.

1
모델과 에이전트 모두를 위한 통합 엔드포인트 (Unified endpoint)
[Google, 2026](https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/)
...

이것은 무엇인가: 비전문가를 위한 Interactions API 설명

전문 용어를 걷어내 봅시다. 오늘 이전까지 AI 기술 모델로 진지한 무언가를 구축한다는 것은 여러 서로 다른 시스템을 이어 붙이는 것을 의미했습니다: 모델을 호출하기 위한 하나의 API, 모델을 '에이전트화'하여 도구를 사용할 수 있게 만드는 또 다른 프레임워크 (framework), 대화를 기억하기 위한 데이터베이스 (database), 그리고 몇 초 이상 걸리는 작업을 처리하기 위한 작업 큐 (job queue). 네 개의 시스템, 네 개의 장애 지점 (failure points), 네 개의 비용이 발생했습니다.

Interactions API는 Google이 다음과 같이 말하는 것과 같습니다:

**모델 ID (model ID)**를 제공하면 → 일반적인 모델 응답 (추론, inference)을 얻습니다.
**에이전트 ID (agent ID)**를 제공하면 → 스스로 생각하고, 코드를 실행하며, 웹을 탐색하고, 파일을 직접 처리할 수 있는 자율적인 작업자 (autonomous worker)를 얻습니다.
background=True를 추가하면 → 연결을 계속 유지할 필요 없이 Google의 서버에서 작업이 실행되며, 나중에 결과를 확인하면 됩니다.

'서버 측 상태 (server-side state)' 부분은 숨겨진 영웅입니다. 보통은 사용자가 대화 기록을 저장하고 매 턴마다 이를 다시 입력해 주는 책임을 집니다. 만약 새벽 2시에 깨진 컨텍스트 윈도우 (context window)를 디버깅해 본 적이 있다면, 이것이 어떻게 실패하는지 정확히 알 것입니다. 여기서는 Google이 상태를 유지합니다. 이는 자동차를 렌트하는 것과, 당신이 어디에 있었는지 기억하는 운전기사가 딸린 차를 렌트하는 것의 차이와 같습니다.

대부분의 에이전트 시스템에서 가장 비용이 많이 드는 항목은 GPU가 아닙니다. 상태 관리 (state management)와 비동기 작업 처리 (async job handling)를 다섯 번째로 다시 구축하는 데 소비되는 엔지니어링 시간입니다. Interactions API는 당신의 예산에서 그 항목을 삭제해 줍니다.

Diagram comparing fragmented AI agent stack with four systems versus unified Interactions API single endpoint

AI 조정 격차 (AI Coordination Gap)의 전/후: 서로 붙여놓은 네 개의 시스템이 서버 측 상태를 가진 단일 Interactions API 엔드포인트로 통합됩니다.

작동 원리: 쉬운 언어로 설명하는 아키텍처 (Architecture)

Interactions API를 당신의 애플리케이션과 Gemini 사이에 위치하는 조정 계층 (coordination layer)이라고 생각하세요. 모든 요청은 동일한 파이프라인을 통해 흐르지만, 전달하는 매개변수 (parameters)에 따라 하류 (downstream)에서 일어나는 일이 달라집니다.

단일 Interactions API 요청이 어떻게 자율 에이전트 실행이 되는가

  1

    **클라이언트 요청 (Client request) → 통합 엔드포인트 (unified endpoint)**

당신의 앱은 하나의 요청을 보냅니다. 이 요청에는 모델 ID (추론용) 또는 에이전트 ID (자율성용)가 포함되며, 비동기 처리를 위한 선택 사항인 background=True가 포함될 수 있습니다. 각 모드마다 별도의 SDK를 사용할 필요가 없습니다.

↓

  2
...

모델 ID가 전달되면 요청은 즉시 Gemini 추론 (inference) 단계로 넘어갑니다. 에이전트 ID가 전달되면, API는 원격 Linux 샌드박스 (sandbox)를 프로비저닝합니다. 기본값은 Antigravity 에이전트이며, 사용자의 커스텀 에이전트를 사용할 수도 있습니다.

↓

  3
...

샌드박스 내부에서 에이전트는 추론 (reasoning)을 수행하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리합니다. 내장된 도구(built-in tools)는 사용자의 커스텀 도구와 혼합되어 사용됩니다. 상태 (state)는 서버 측 (server-side)에 유지되므로, 각 단계는 전체 문맥 (context)을 온전히 가집니다.

↓

  4
...

↓

  5
...

사용자는 최종 결과물을 받게 됩니다. 서버 측 상태 유지는 다음 상호작용이 중단된 지점부터 이어서 진행됨을 의미합니다. 즉, 수동으로 이력을 재구성하거나 전체 대화 기록을 토큰 단위로 다시 재생 (replay)할 필요가 없습니다.

이 시퀀스(sequence)가 중요한 이유는, 과거에 에이전트 프레임워크 (agent framework), 샌드박스 (sandbox), 작업 큐 (job queue), 상태 저장소 (state store)와 같이 각각 별도의 시스템이 필요했던 모든 단계가 이제 하나의 매개변수화된 요청 (parameterized request) 뒤에 존재하기 때문입니다.

여기서의 아키텍처적 선택은 업계의 다른 곳에서 멀티 에이전트 오케스트레이션 (multi-agent orchestration)이라 부르는 것과 동일합니다. 하지만 Google은 오케스트레이션을 _서버 측 (server-side)_으로 옮겼습니다. LangGraph나 CrewAI가 사용자의 프로세스 내에서 조정 그래프 (coordination graph)를 실행하는 반면, Interactions API는 이를 Google의 프로세스 내에서 실행합니다. 이것이 이 AI 기술에서 가장 중대한 설계 차이점이며, 편의성 대 제어권(convenience versus control)이라는 양날의 검과 같습니다. 이 트레이드오프 (tradeoff)가 명확하다고 말한다면 거짓말일 것입니다. 그렇지 않습니다.

Python — 가장 단순한 형태의 에이전트 실행

추론 (Inference): 모델 ID만 전달

response = client.interactions.create(  
    model='gemini-2.5-pro',  
    input='Q2 판매 트렌드를 요약해줘.'  
)

자율 에이전트 (Autonomous agent): 대신 에이전트 ID를 전달

Antigravity는 기본 관리형 에이전트 (Managed Agent)로 제공됩니다.

run = client.interactions.create(  
    agent='antigravity',  
    input='URL에서 CSV를 가져와서 정제한 뒤 매출 차트를 그려줘.',  
    background=True # 장시간 실행되는 작업인가요? 서버에 맡기세요.  
)

동일한 엔드포인트 (endpoint). 세 개의 매개변수. 이것이 API 인터페이스의 전부입니다.

해당 코드에서 무엇이 빠져 있는지 주목하십시오. 대화 버퍼 (conversation buffer), 수동 도구 등록 (manual tool registry), Celery 워커 (worker), Redis 상태 저장소 (state store)가 모두 없습니다. 누락된 각 라인은 여러분이 결코 작성할 필요가 없는 버그이며, 동시에 AI 조정 격차 (AI Coordination Gap)가 더 이상 숨을 수 없는 지점입니다.

전체 기능 목록: 수행 가능한 모든 작업

다음은 추측을 배제하고 Google의 발표를 통해 확인된, 근거 있는 전체 기능 세트입니다.

통합 추론 + 에이전트 (Unified inference + agents) — 하나의 엔드포인트 (endpoint)가 모델 호출 (model ID)과 자율 에이전트 실행 (agent ID)을 모두 처리합니다.
서버 측 상태 (Server-side state) — Google이 상호작용 상태를 유지하므로, 매 턴마다 대화 기록을 다시 구축할 필요가 없습니다.
백그라운드 실행 (Background execution) — background=True를 통해 모든 상호작용을 서버 측에서 비동기적으로 실행합니다.
관리형 에이전트 (Managed Agents) — 단 한 번의 호출로 추론, 코드 실행, 웹 브라우징 및 파일 관리가 가능한 원격 Linux 샌드박스 (sandbox)를 프로비저닝합니다.
Antigravity 기본 에이전트 — 즉시 사용할 수 있도록 제공되며, 자율 에이전트를 실행하기 위한 별도의 설정이 필요하지 않습니다.
커스텀 에이전트 (Custom agents) — 지침 (instructions), 기술 (skills), 데이터 소스를 사용하여 자신만의 에이전트를 정의할 수 있습니다.
도구 조합 (Tool combination) — Google의 내장 도구와 사용자의 커스텀 도구를 동일한 실행 내에서 혼합하여 사용할 수 있습니다.
Gemini Omni를 통한 멀티모달 생성 (Multimodal generation via Gemini Omni) — '곧(soon)' 출시될 예정이라고 발표되었습니다.
안정적인 GA 스키마 (Stable GA schema) — API 계약 (contract)이 이제 안정화되어 프로덕션 빌드에 적합합니다.
에코시스템 기본값 (Ecosystem default) — 모든 Google 문서의 기본값이 되며, 서드파티 SDK들도 이에 맞춰 조정되고 있습니다.

추측 주의 (Speculation flag): Google은 발표문에서 벤치마크 지연 시간 (latency) 수치, 처리량 (throughput) 수치 또는 구체적인 GA 가격을 공개하지 않았습니다. 아래의 모든 비용 수치는 확인된 GA 가격이 아니라, 유사한 Gemini API 가격을 기반으로 한 업계 추정치임을 명시합니다.

벤더가 자신의 조정 계층 (coordination layer)을 기본 인터페이스로 만들고 모든 문서를 그 뒤로 옮길 때, 그것은 단순한 기능 출시가 아닙니다. 그것은 플랫폼이 자신의 무게 중심을 선언하는 것입니다.

액세스 및 사용 방법: 단계별 안내

Interactions API는 Google AI Studio 내에 존재합니다. 에이전트를 구축하기 위한 기초 단계부터 실행 가능한 단계까지의 실질적인 경로는 다음과 같습니다.

Google Interactions API: Gemini 모델과 에이전트를 통합하는 AI 기술

요약

핵심 포인트