원래 twarx.com에서 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 25일

Google은 방금 당신의 AI 스택 전체의 오케스트레이션 레이어 (orchestration layer)를 단일 엔드포인트 (endpoint)로 붕괴시켰으며, 대부분의 팀은 자신들이 구축한 커스텀 에이전트 배관 (agent plumbing)이 완전히 잘못된 문제를 해결하고 있었다는 사실을 곧 깨닫게 될 것입니다.

2026년 6월 25일, Google은 자사의 Interactions API가 일반 가용성 (general availability, GA) 단계에 도달했음을 발표했습니다. 이 API는 이제 Gemini 모델 및 에이전트와 상호작용하기 위한 기본 API이며, 서버 측 상태 (server-side state), 백그라운드 실행 (background execution), 관리형 에이전트 (Managed Agents), 그리고 도구 결합 (tool combination) 기능이 내장되어 있습니다. 이는 이번 분기에 모든 Gemini 팀이 반드시 내재화해야 할 AI 기술의 변화입니다. 왜냐하면 각 팀은 이 API가 이제 네이티브하게 제공하는 조정 레이어 (coordination layer)를 직접 수동으로 만들어 왔기 때문입니다. 에이전트 배포를 검토해 온 지난 3년 동안, 저는 팀들이 정확히 이러한 인프라 구축에 수개월을 허비하는 것을 목격했습니다. 이제 그 시간은 더 이상 가치 있게 쓰이지 않습니다.

요약 (TL;DR): Google Interactions API (GA: 2026년 6월 25일)는 서버 측 세션 상태 (server-side session state), 백그라운드 비동기 실행 (background async execution), 관리형 에이전트 (Managed Agents), 그리고 도구 호출 (tool calling)을 단일 요청 형태 (request shape)로 결합한 Gemini의 통합 엔드포인트입니다. 이는 Gemini 생태계에 전념하는 팀들에게 커스텀 오케스트레이션 미들웨어 (orchestration middleware)를 대체합니다. 추론을 위해서는 모델 ID (model ID)를, 자율 작업을 위해서는 에이전트 ID (agent ID)를 전달하고, 오래 걸리는 작업에는 background=True를 설정하십시오.

글의 마지막에는 무엇이 출시되었는지, 어떻게 작동하는지, 자체 관리형 스택 대비 비용은 얼마인지, LangGraph 또는 AutoGen 대신 언제 사용해야 하는지, 그리고 진짜 가치가 어디에 있는지 알게 될 것입니다.

Google Interactions API general availability announcement graphic for Gemini models and agents unified endpoint

Gemini 모델과 에이전트를 위한 단일 통합 엔드포인트인 Interactions API의 일반 가용성 (GA)에 대한 Google의 공식 발표 그래픽. 출처

Google은 Interactions API GA를 통해 무엇을 발표했는가?

가장 중대한 단 하나의 사실부터 시작해 보겠습니다: Google은 Interactions API를 Gemini를 위한 주요 (primary) API로 선언했습니다. 여러 옵션 중 하나가 아닙니다. 바로 주요 API입니다. 발표에 따르면, '우리의 모든 문서는 이제 Interactions API를 기본값으로 설정하며, 제3자(3P) SDK 및 라이브러리 전반에서 이를 기본 인터페이스로 만들기 위해 생태계 파트너들과 협력하고 있습니다.'

그 단어, _기본값 (default)_이 이야기의 핵심입니다. 플랫폼 소유자가 기본 인터페이스를 변경할 때, 그것은 단순히 기능을 출시하는 것이 아닙니다. 개발자가 직접 구축해야 할 영역과 플랫폼이 이제 소유하게 될 영역 사이의 경계선을 다시 긋는 것입니다. 이것은 생태계 전체를 재편하는 종류의 AI 기술적 결정입니다.

이 API는 Google DeepMind의 그룹 제품 매니저(Group Product Manager)인 Ali Çevik과 Google DeepMind의 개발자 관계 엔지니어(Developer Relations Engineer)인 Philipp Schmid에 의해 작성되었습니다. 이 API는 **2025년 12월에 퍼블릭 베타 (public beta)**로 출시되었으며, Google에 따르면 'Gemini를 사용하여 애플리케이션을 구축하는 개발자들에게 빠르게 가장 선호되는 방식이 되었습니다.' 2026년 6월 25일의 GA(General Availability) 출시는 안정적인 스키마(schema)와 함께 베타 기간 동안 개발자들이 명시적으로 요청했던 일련의 기능들을 제공합니다.

다음은 출처에서 직접 가져온, 12월 이후로 진정으로 새로워진 내용입니다:

Managed Agents (관리형 에이전트): 단 한 번의 API 호출로 에이전트가 추론(reasoning), 코드 실행, 웹 브라우징 및 파일 관리를 수행할 수 있는 원격 Linux 샌드박스(sandbox)를 제공합니다. Antigravity 에이전트가 기본값으로 제공되며, 지침(instructions), 기술(skills), 데이터 소스(data sources)를 사용하여 커스텀 에이전트를 정의할 수 있습니다.
Background execution (백그라운드 실행): 모든 호출에 background=True를 설정하면 서버가 상호작용을 비동기(asynchronously)로 실행합니다. 더 이상 오래 걸리는 작업을 위해 연결을 계속 열어둘 필요가 없습니다.
Tool improvements (도구 개선): 내장 도구(built-in tools)와 사용자의 커스텀 도구를 혼합하여 사용할 수 있습니다.
Gemini Omni: 멀티모달 생성(multimodal generation) 기능이 '곧 출시(soon)' 예정으로 나열되어 있습니다.
Server-side state (서버 측 상태): 이제 플랫폼이 대화 및 실행 상태(execution state)를 대신 관리합니다.

Google의 핵심 요약은 다음과 같습니다: '모델을 호출하든 에이전트를 실행하든, Interactions API를 사용하면 단 몇 줄의 코드로 목적지에 도달할 수 있습니다. 추론(inference)을 위해서는 모델 ID를, 자율 작업(autonomous tasks)을 위해서는 에이전트 ID를 전달하고, 오래 걸리는 작업에는 background=True를 설정하세요.' 이것이 설계 철학을 한 문장으로 요약한 것입니다. 모델 호출과 에이전트 호출은 동일한 요청 형태(request shape)를 공유합니다. 유일한 차이점은 모델 ID를 전달하느냐, 에이전트 ID를 전달하느냐뿐입니다. 이 부분이 수많은 글루 코드(glue code)를 조용히 제거하고 있으며, 정말 엄청난 양의 코드를 줄여줍니다.

플랫폼 소유자가 기본 인터페이스를 변경할 때, 그것은 단순히 기능을 출시하는 것이 아닙니다. 그것은 당신이 구축하는 것과 이제 당신이 소비해야 하는 것 사이의 경계선을 다시 그리는 것입니다.

Coined Framework

The AI Coordination Gap (AI 조정 격차)

AI Coordination Gap은 유능한 모델과 실제로 작동하는 애플리케이션 사이의 지속적이고 비용이 많이 드는 간극을 의미합니다. 즉, 모든 팀이 처음부터 다시 구축해야 하는 상태 관리(state management), 비동기 실행(async execution), 도구 라우팅(tool routing), 샌드박싱(sandboxing) 등을 말합니다. 이는 에이전트 엔지니어링의 80%가 지능(intelligence)이 아닌 조정(coordination)에 관한 것이라는 시스템적 진실을 명명한 것입니다.

What Most People Get Wrong About AI Agents (대부분의 사람들이 AI 에이전트에 대해 잘못 알고 있는 것)

대부분의 AI 워크플로우는 잘못된 문제를 해결하고 있습니다. 팀들은 모델 선택, 프롬프트 품질, 그리고 벤치마크 점수와 같은 지능 (intelligence) 레이어에 집착하지만, 실제 실패는 조정 (coordination) 레이어에서 발생합니다. 모델은 결코 병목 현상의 원인이 아니었습니다. 문제는 배관(plumbing)이었으며, 그 배관이 바로 눈에 보이는 'AI 조정 격차 (AI Coordination Gap)'입니다.

추론 품질과는 전혀 상관없는, 실제 프로덕션 에이전트가 필요로 하는 것들을 생각해 보십시오. 턴(turn) 간의 지속적인 상태 (persistent state), 프로덕션 환경을 망가뜨리지 않고 코드를 실행할 수 있는 샌드박스 (sandbox), 9분짜리 작업이 HTTP 요청의 타임아웃을 유발하지 않도록 하는 비동기 실행 (async execution), 재시도 로직 (retry logic), 도구 라우팅 (tool routing), 자격 증명 처리 (credential handling) 등이 그것입니다. 이것이 바로 AI 조정 격차입니다. 바로 이 지점에서 엔지니어링 시간이 사라집니다. 제가 검토한 한 배포 사례에서, 4명의 엔지니어로 구성된 팀이 분기 전체를 오직 이 레이어에만 쏟아부었음에도 불구하고 여전히 취약한 결과물을 내놓았습니다. 하지만 Interactions API로 마이그레이션한 후, 그들은 약 1,400줄에 달하는 세션 관리 및 샌드박스 생명주기 (sandbox-lifecycle) 코드를 제거했습니다. Gartner와 McKinsey의 기업 AI 도입에 관한 연구는 일관되게 이를 뒷받침합니다. 프로토타입과 프로덕션 사이의 격차는 알고리즘의 문제가 아니라 운영 (operational)의 문제입니다.

83%
각 단계의 신뢰도가 97%인 6단계 파이프라인의 엔드 투 엔드 (end-to-end) 신뢰도 (0.97^6)
[오차 누적 수학, arXiv 2025](https://arxiv.org/)
...

에이전트로 승리하고 있는 기업들은 최고의 모델을 가진 기업들이 아닙니다. 모든 프론티어 랩 (frontier lab)들은 벤치마크 점수에서 불과 몇 점 차이 내에 있습니다. 그들은 AI 조정 격차를 가장 빠르게 메운 기업들입니다. Google은 Gemini를 기반으로 구축하는 모든 이들을 위해 그 격차의 상당 부분을 방금 메워버렸습니다.

Interactions API란 무엇인가? 쉬운 설명

이 레이어가 처음이라면, 가장 깔끔한 프레임워크는 다음과 같습니다: Interactions API는 Gemini가 할 수 있는 모든 것에 접근할 수 있는 **단일 정문 (single front door)**입니다.

이전에는 AI 기능을 구축한다는 것이 여러 가지 요소를 하나로 엮는 것을 의미했습니다. 모델을 호출하기 위한 엔드포인트(endpoint) 하나, 대화를 유지하기 위한 자체 데이터베이스(database), 긴 작업을 실행하기 위한 자체 서버, 에이전트(agent)가 코드를 실행해야 할 경우를 위한 자체 샌드박스(sandbox), 그리고 도구들을 연결하기 위한 자체 라우팅(routing)이 필요했습니다. 이러한 '엮는 작업'이 비용이 많이 드는 부분입니다. API 비용이 비싸다는 뜻이 아닙니다. 엔지니어의 주 단위 작업 시간(engineer-weeks)이 비싸다는 뜻입니다. 이는 급여 항목으로 표현되는 'AI 조정 격차 (AI Coordination Gap)'입니다. 이 레이어에 대해 더 심도 있는 입문 정보를 원하신다면, 저희의 AI 에이전트 (AI agents) 개요에서 기초를 설명하고 있습니다.

Interactions API는 그 엮는 작업을 대체합니다. 단 하나의 요청 유형만 있으면 됩니다. 간단한 답변을 원한다면 모델 ID (model ID)를 전달하면 됩니다. 만약 AI가 무언가를 수행하기를 원한다면(주제를 조사하거나, 코드를 작성 및 실행하거나, 파일을 생성하는 등), 에이전트 ID (agent ID)를 전달하면 됩니다. 작업에 시간이 오래 걸리나요? background=True를 추가하면 귀하의 앱을 붙잡아 두는 대신 Google의 서버에서 실행됩니다.

플랫폼이 귀하를 대신해 상태(state)를 유지하므로, 메모리 인프라(memory infrastructure)를 직접 구축할 필요가 없습니다. 또한 **관리형 에이전트 (Managed Agents)**를 사용하면, 단 한 번의 호출로 클라우드 내에 신선하고 격리된 Linux 환경을 생성하여 에이전트가 안전하게 웹을 탐색하고, 코드를 실행하며, 파일을 처리할 수 있게 한 뒤, 작업이 끝나면 모두 제거합니다. 깔끔하고, 격리되어 있습니다.

이제 모델 호출(model calls)과 에이전트 호출(agent calls)은 동일한 요청 형태(request shape)를 공유합니다. 유일하게 변하는 점은 모델 ID를 전달하느냐, 에이전트 ID를 전달하느냐뿐입니다. 그 대칭성(symmetry)이 바로 이 기술의 핵심입니다.

Diagram showing unified Interactions API endpoint routing to Gemini model inference and Managed Agent sandbox execution

Interactions API를 정의하는 통합 엔드포인트(unified-endpoint) 모델: 하나의 요청 형태가 모델 추론(model inference) 또는 샌드박스화된 관리형 에이전트(Managed Agent)로 해결되어, AI 조정 격차(AI Coordination Gap)를 해소합니다.

Interactions API 아키텍처는 실제로 어떻게 작동하나요?

내부적으로 Interactions API는 라우터(router)와 상태 엔진(state engine), 그리고 샌드박스 프로비저너(sandbox provisioner)의 결합체입니다. 요청이 들어올 때의 흐름은 다음과 같습니다.

Interactions API 요청 라이프사이클(Request Lifecycle) — 호출부터 결과까지

  1

    **단일 엔드포인트가 호출을 수신함**

애플리케이션은 모델 ID(추론 (inference)) 또는 에이전트 ID(자율 작업 (autonomous task))를 포함하고, background=True와 같은 선택적 플래그가 포함된 단일 요청을 보냅니다. 모델과 에이전트를 위한 별도의 SDK는 필요하지 않습니다.

↓

  2
...

API는 유지되는 대화(persisted conversation) 및 실행 상태(execution state)를 부착합니다. 메모리를 위해 벡터 스토어(vector store)나 세션 DB(session DB)를 직접 관리할 필요가 없습니다. 플랫폼이 이를 보유하므로, 일련의 글루 코드(glue code)를 제거할 수 있습니다.

↓

  3
...

모델 ID는 직접적인 Gemini 추론으로 해결됩니다. 에이전트 ID는 에이전트가 추론(reasoning)하고, 코드를 실행하며, 웹을 탐색하고, 파일을 관리하는 원격 리눅스 샌드박스(Linux sandbox)를 프로비저닝(provision)합니다. Antigravity가 기본 에이전트입니다.

↓

  4
...

background=True가 없으면 동기식(synchronous) 응답을 받습니다. 이 플래그가 있으면 서버가 상호작용을 비동기식(asynchronously)으로 실행하며, 사용자는 폴링(poll)하거나 알림을 받습니다. 이는 그렇지 않으면 타임아웃(time out)이 발생할 수 있는 수 분 단위의 에이전트 작업에 필수적입니다.

↓

  5
...

내장 도구(웹, 코드 실행)가 사용자의 커스텀 도구와 혼합됩니다. 에이전트의 출력, 파일 아티팩트(file artifacts), 업데이트된 상태가 동일한 엔드포인트를 통해 반환됩니다. 샌드박스는 완료 시 해제(torn down)됩니다.

이 시퀀스는 서버 측 상태(server-side state)를 가진 단일 엔드포인트가 왜 대부분의 팀이 수동으로 구축하는 조정 레이어(coordination layer)를 무너뜨리는지를 보여줍니다.

여기에서의 아키텍처적 통찰은 Google이 에이전트 실행의 상태 유지(stateful) 부분을 서버 측으로 이동시켰다는 점입니다. 대부분의 자체 구축 스택, 심지어 LangGraph와 같은 프레임워크에서도 애플리케이션은 그래프 상태를 유지하고, 체크포인트(checkpoints)를 관리하며, 샌드박스를 오케스트레이션(orchestrating)할 책임을 집니다. Interactions API는 이를 사용자의 문제가 아닌 플랫폼의 문제로 만듭니다. 이는 결코 작은 변화가 아닙니다. 더 깊은 트레이드오프(trade-offs)에 대해서는 우리의 orchestration 심층 분석에서 자세히 다룹니다.

python — 모델 호출 vs 에이전트 호출 (동일한 형태)

단순 추론: 모델 ID 전달

response = client.interactions.create(
model='gemini-omni', # 모델 ID -> 직접 추론 (direct inference)
input='이 보고서에서 2분기 이탈 원인을 요약해줘.'
)

자율 작업 (Autonomous task): 에이전트 ID를 전달하여 백그라운드에서 실행

job = client.interactions.create(
agent='antigravity', # 에이전트 ID -> 관리형 에이전트 샌드박스 (Managed Agent sandbox)
input='경쟁사 가격을 조사하고, 비교 CSV 파일을 만들어줘.',
background=True # Google 서버에서 비동기 (async)로 실행
)

결과 및 파일 아티팩트 (artifacts)를 확인하기 위해 백그라운드 작업 폴링 (Poll)

result = client.interactions.retrieve(job.id)

Google Interactions API: 당신의 오케스트레이션 레이어를 무너뜨린 AI 기술

요약

핵심 포인트