AI 위클리: Google의 코딩 스택 재편, Claude의 앞선 행보, 그리고 에이전트 프로토콜 스택의 강화 (2026년 5월 13일-20일

이번 주 AI 산업은 최근 몇 년 중 가장 분주했던 Google I/O 키노트 중 하나를 선보였으며, 상위 두 모델 벤더(vendor) 간의 비즈니스 지출에서 의미 있는 변화가 나타났고, 에이전트(agent)가 도구 및 서로와 통신하는 방식에서 꾸준한 통합이 이루어졌습니다. 무게 중심이 단순한 모델 출시에서 모델 주변의 배관(plumbing) 작업으로 이동했습니다. 이는 다음 벤치마크(benchmark)를 쫓기보다 실제 제품 로드맵을 계획하려는 모든 이들에게 좋은 소식입니다. 지난 7일 동안 화려한 새로운 프런티어 모델(frontier model) 출시는 없었습니다. 대신 2026년 남은 기간 동안 팀들이 AI를 구축, 배포 및 비용을 지불하는 방식을 결정할 플랫폼 변화들이 등장했습니다. Google은 에이전트 기반 코딩 도구(agentic coding tool)를 재구축했고, AI 에이전트에 의해 구동되는 Android 개발용 안정적인 명령줄 인터페이스(CLI)를 출시했으며, 새로운 개방형 웹 표준을 제안했습니다. Anthropic은 1년 전에는 예측하기 어려웠을 비즈니스 채택 이정표를 달성했습니다. 그리고 에이전트가 도구에 접근하고 서로 소통할 수 있게 해주는 프로토콜 계층(protocol layer)은 배경에서 계속 성숙해 가고 있었습니다. 이 모든 것을 관통하는 실타래는 명확합니다. 흥미로운 작업은 에이전트 사이, 코딩 도구 사이, 그리고 모델과 현실 세계 사이의 접점에서 일어나고 있습니다. 아래는 변화된 내용과 그것이 중요한 이유입니다.

AI 코딩 도구: Google, Antigravity 2.0에 스택을 걸다
Google은 5월 19일 마운틴뷰에서 연례 I/O 개발자 키노트를 개최했습니다. 생업으로 코드를 작성하는 모든 이들에게 가장 핵심적인 발표는 2025년 11월에 Google이 출시한 에이전트 기반 코딩 플랫폼을 완전히 재구축한 Antigravity 2.0이었습니다. 기존의 Antigravity는 AI 보조 개발에 최적화된 VS Code 포크(fork) 형태로 출시되었습니다. 이는 Gemini가 운전석에 앉아 있는 Cursor와 매우 유사해 보였습니다. 새로운 버전은 훨씬 더 나아갑니다. 이제 Google은 Antigravity를 단일 에디터가 아닌 전체 도구 제품군을 위한 브랜드로 취급합니다.

Version 2.0에는 여러 에이전트 (agents)를 병렬로 실행하는 데 중점을 둔 재설계된 데스크톱 앱, Go 언어로 작성된 완전히 새로운 명령줄 도구 (command-line tool), 커스텀 에이전트 구축을 위한 SDK, 그리고 클라우드 실행을 위한 Gemini API 내의 Managed Agents 서비스가 포함됩니다. TechCrunch의 보도에 따르면, 새로운 데스크톱 애플리케이션을 통해 개발자는 병렬 서브 에이전트 (subagents)를 오케스트레이션하고, 커스텀 워크플로 (workflows)를 설계하며, 백그라운드에서 실행되는 작업을 스케줄링할 수 있습니다. 가장 극적인 데모는 기조 연설 (keynote) 중에 등장했습니다. Digit의 보도에 따르면, Google은 Antigravity 2.0이 약 12시간 만에 작동하는 운영체제 (operating system)의 핵심 프레임워크를 구축했다고 주장했습니다. 회사 측에 따르면, 이 플랫폼은 작업 중에 93개의 개별 서브 에이전트를 생성하고, 수십억 개의 토큰 (tokens)을 처리했으며, 1,000달러 미만의 컴퓨팅 비용으로 프로젝트를 완료했습니다. 결과가 실제로 작동함을 증명하기 위해, Google은 기조 연설 중에 AI가 구축한 OS에서 고전 게임인 Doom을 실행했습니다. 처음에는 키보드 드라이버가 없어 Doom이 실행되지 않았으나, Google은 Antigravity에 무대 위에서 실시간으로 드라이버를 작성하도록 요청했습니다. 그 후 게임은 정상적으로 실행되었습니다. 이 이야기는 절반은 마케팅적인 연출 (marketing theater)이고, 절반은 실제 데이터 포인트 (data point)입니다. 마케팅적인 부분은 명백합니다. 데이터 포인트는 바로 비용 수치입니다. 몇 가지 주의 사항이 있더라도, 1,000달러 미만의 컴퓨팅 비용으로 작동하는 OS 프레임워크를 구축한다는 것은 2년 전 소프트웨어를 구축하던 방식과는 다른 단위 경제성 (unit economics)의 대화입니다. Google은 또한 기존의 무료 도구가 어디로 향하고 있는지도 시사했습니다. The Next Web의 보도에 따르면, AI Pro, AI Ultra 및 무료 티어 사용자를 위한 Gemini CLI 및 Gemini Code Assist IDE 확장 프로그램에 대한 소비자 액세스는 2026년 6월 18일에 종료될 예정입니다. Gemini Code Assist Standard 또는 Enterprise 라이선스를 사용하는 기업 고객은 액세스를 유지합니다. 소비자 개발자들에게 전달하는 메시지는 명확합니다. Antigravity로 이동하라는 것입니다. 특히 Android 개발자를 위해, Google은 동일한 행사에서 Android CLI 1.0을 출시했습니다. Android CLI 1.0에 대한 TechCrunch의 보도는 이 도구 세트가 AI 에이전트에게 터미널에서 Android Studio의 기능을 직접 프로그래밍 방식으로 접근할 수 있게 해준다고 설명했습니다.

첫 번째 버전은 Claude Code, OpenAI Codex, 그리고 Antigravity를 지원합니다. 에이전트는 IDE를 전혀 열지 않고도 의미론적 코드 분석 (semantic code analysis)을 수행하고, Jetpack Compose 미리보기를 렌더링하며, 경고를 감지하고, 자동화된 UI 테스트를 실행할 수 있습니다. 또한 Google은 Antigravity 2.0에 Android CLI 지원을 직접 통합하여, 플랫폼이 프로젝트의 생성부터 가상 Android 기기로의 배포까지 전 과정을 수행할 수 있도록 했습니다. 이는 조용하지만 중요한 인정입니다. Google은 자체 코딩 플랫폼을 구축했지만, Android 툴링 (tooling)이 경쟁사들과도 작동할 수 있도록 공개적으로 설계했습니다. Android 팀은 개발자들이 실제로 일상에서 무엇을 사용하는지 살펴보고, 그들이 있는 곳에서 그들을 만나기로 결정한 것으로 보입니다. 이는 주요 플랫폼들이 개발자 도구를 출시할 때 일반적으로 취하는 태도와는 다른 자세입니다. 나머지 I/O 코딩 라인업이 전체 그림을 완성했습니다. Google은 Gemini API 내의 관리형 에이전트 (managed agents)를 위한 엔진으로 Gemini 3.5 Flash 모델을 출시했습니다. 또한 AI Studio 내에서 네이티브 Android 앱 생성을 출시했는데, 여기서는 일상 언어로 앱을 설명하고 통합된 에뮬레이터 내에서 미리보기를 할 수 있습니다. Google은 또한 Gemma 4와 같은 오픈 웨이트 (open-weight) 모델을 지원하며, Android 특화 개발 작업에서 AI 코딩 모델의 순위를 매기는 벤치마킹 리더보드인 Android Bench를 선보였습니다. 이제 Google에서 잠시 시선을 돌려보겠습니다. AI 코딩 도구의 경쟁 구도는 6개월 전과는 달라 보입니다. The New Stack의 보도에 따르면, Cursor, Claude Code, 그리고 OpenAI Codex는 단일 승자를 가리기보다는 계층화된 스택 (layered stack)으로 수렴하고 있습니다. 2026년 2월 Pragmatic Engineer의 설문 조사에 따르면, 906명의 소프트웨어 엔지니어 중 46%가 Claude Code를 가장 선호한다고 답하며 가장 높은 "가장 사랑받는 (most loved)" 등급을 기록했습니다. SemiAnalysis는 2026년 3월 기준 Claude Code가 모든 공개 GitHub 커밋의 약 4%를 차지한다고 추정했으며, 연말까지 그 수치가 20%에 달할 수 있다는 전망을 내놓았습니다. Cursor는 여전히 IDE 내부의 인라인 편집 (inline editing) 경험 측면에서 앞서 나가고 있습니다. Claude Code는 터미널과 에이전트적 인터페이스 (agentic surface) 영역을 지배하고 있습니다.

Codex는 개발자의 개입 없이 클라우드 샌드박스(cloud sandbox)에서 실행되는 비동기적이고 장기적인 작업(asynchronous, long-running tasks)을 위해 점점 더 많은 관심을 받고 있습니다. Codex는 2026년 3월에 주간 활성 사용자 수(WAU) 300만 명을 돌파했으며, 이는 한 달 전의 200만 명에서 증가한 수치입니다. 2026년 4월에 발표된 JetBrains의 연구에 따르면, 2026년 1월 기준으로 개발자의 90%가 업무에서 최소 하나 이상의 AI 도구를 사용하고 있었으며, 74%는 채팅을 넘어선 전문적인 AI 개발 도구(specialized AI development tools)를 사용하고 있는 것으로 나타났습니다. GitHub Copilot은 직장 내 사용률 29%로 가장 높은 채택률을 유지했으며, Cursor와 Claude Code가 18%로 공동 2위를 차지했습니다. 엔지니어링 리더들이 얻을 수 있는 시사점은 실무적입니다. 표준화할 수 있는 단 하나의 AI 코딩 도구는 존재하지 않습니다. 팀들은 서로 다른 맥락에서 두세 개의 도구를 병행하여 사용하고 있습니다. 전형적인 설정으로는 에이전트적 작업(agentic work)을 위해 터미널에서 Claude Code를 사용하고, 자동 완성(autocomplete) 및 인라인 편집(inline edits)을 위해 IDE 내부에서 Copilot 또는 Cursor를 사용하며, 아키텍처를 구상하기 위해 채팅 인터페이스를 사용하는 방식이 있습니다. 이러한 설정은 작년에는 권장 사항으로 존재하지 않았으나, 이제는 기본값이 되었습니다.

AI 프로세싱: TPU, 맞춤형 실리콘(Custom Silicon), 그리고 Antigravity의 Doom 데모 이면에 숨겨진 비용 문제

이번 주의 하드웨어 이야기는 새로운 칩 자체보다는 데모 이면에 숨겨진 수학적 계산에 더 가까웠습니다. Google이 1,000달러 미만의 컴퓨팅 비용으로 운영 체제를 구축했다고 말했을 때, 암묵적으로 뒤따르는 질문은 그 아래에서 무엇이 실행되고 있었는가 하는 점입니다. 그 답은 Google의 8세대 텐서 프로세싱 유닛(Tensor Processing Unit, TPU) 제품군으로 귀결됩니다. TechCrunch는 4월 Google Cloud Next에서 Google이 TPU 8t와 TPU 8i를 발표했다고 보도했으며, 8t는 학습(training)용으로, 8i는 추론(inference)용으로 제작되었습니다. Google은 이전 세대 대비 AI 모델 학습 속도가 최대 3배 빨라졌고, 추론 시 달러당 성능은 80% 향상되었으며, 100만 개 이상의 TPU를 단일 클러스터(cluster)로 연결할 수 있는 능력을 갖췄다고 주장했습니다. Google의 자체 AI 인프라 발표에 따르면, TPU 8i는 온칩 SRAM(on-chip SRAM)을 384MB로 3배 늘렸으며, 칩당 고대역폭 메모리(high-bandwidth memory)를 288GB로 증가시켰습니다.

이 칩은 칩 간 상호 연결 대역폭(inter-chip interconnect bandwidth)을 19.2 Tb/s로 두 배 늘렸으며, 온칩 지연 시간(on-chip latency)을 최대 5배까지 줄여주는 전용 Collectives Acceleration Engine을 포함합니다. 이러한 사양은 단 하나의 이유 때문에 중요합니다. 바로 무대 위에서 Antigravity 2.0이 보여준 워크로드(workload)에 맞춰 최적화되었기 때문입니다. 대규모 컨텍스트 윈도우(context window)를 유지하면서 수많은 에이전트(agents)가 병렬로 실행되고, 각 에이전트가 도구(tools)를 호출하며, 상호작용이 가능하다고 느낄 만큼 빠르게 토큰(tokens)을 생성하는 환경 말입니다. 맞춤형 실리콘(custom silicon)으로의 전환은 이제 AI 하드웨어 분야의 결정적인 흐름이 되었습니다. AIMultiple이 요약한 TrendForce 데이터에 따르면, 클라우드 제공업체의 맞춤형 ASIC 출하량은 2026년에 44.6% 성장할 것으로 예상되는 반면, GPU 출하량은 16.1% 성장할 것으로 전망됩니다. 동일한 보고서는 ASIC이 AI 추론(inference) 시장에서 차지하는 비중이 2024년 15%에서 2026년에는 40%까지 증가할 것이라는 전망을 추적하고 있습니다. 하이퍼스케일러(Hyperscalers)들은 더 이상 NVIDIA 제품만을 구매하지 않습니다. 그들은 자신들의 워크로드에 맞춰 자체 칩을 설계하는 동시에 NVIDIA를 병행하여 사용하고 있습니다. Anthropic은 그 어떤 모델 벤더보다도 이러한 멀티 플랫폼(multi-platform) 패턴을 명확하게 보여줍니다. Anthropic은 Google Cloud 기술의 사용량을 최대 100만 개의 TPU까지 확장할 계획이라고 발표했는데, 이는 수백억 달러 규모의 확장이며 2026년 동안 1기가와트(gigawatt) 이상의 용량을 가동하게 될 것입니다. 또한 Anthropic은 주요 학습 파트너로서 Amazon Trainium에 대한 의지를 유지하고 있으며 NVIDIA GPU도 계속 사용하고 있습니다. 이 회사는 세 가지 플랫폼 모두에서 동시에 본격적인 워크로드를 실행하는 몇 안 되는 고객 중 하나입니다. 이번 주 Anthropic 뉴스 속에는 조용히 지나간 하드웨어 관련 소식도 숨어 있었습니다. Digitimes는 5월 20일, Anthropic이 Claude의 사전 학습(pretraining) 연구를 가속화하기 위해 OpenAI와 Tesla에서의 경력을 가진 저명한 AI 연구원을 채용했다고 보도했습니다. 같은 기사는 해당 작업을 지원하기 위한 새로운 컴퓨팅 임대 계약에 대해서도 언급했습니다. 이를 5월 6일 Anthropic의 SpaceX와의 컴퓨팅 계약 발표, 그리고 5월 14일에 발표된 2억 달러 규모의 Gates Foundation 파트너십과 연결해 보면 그 패턴은 명확합니다.

Anthropic은 계약을 체결할 수 있는 한 최대한 빠르게 여러 벤더(vendor)와 여러 물리적 사이트에 걸쳐 컴퓨팅 용량(compute capacity)을 확보하고 있습니다. 이로 인해 뒤따르는 비용 문제는 현재 모든 엔지니어링 조직이 씨름하고 있는 과제입니다. AI 워크로드(workloads)에서 고정 요금제(flat-rate pricing) 계층이 사라졌기 때문입니다. InfoWorld는 5월 14일 보도를 통해, Anthropic이 6월 15일부터 프로그래밍 방식의 Claude 사용(programmatic Claude usage)을 표준 채팅 구독 제한(standard chat subscription limits)과 분리할 것이라고 전했습니다. 새로운 정책은 Agent SDK, GitHub Actions, 그리고 OpenClaw와 같은 제3자 프레임워크(third-party frameworks)를 위한 전용 월간 크레딧 풀(monthly credit pool)을 생성합니다. 프로(Pro) 사용자는 20달러 상당의 프로그래밍 크레딧을 받으며, Max 5x 사용자는 100달러, Max 20x 사용자는 200달러를 받게 되며, 이는 API 방식의 요율로 청구됩니다. InfoWorld 기사에 인용된 Greyhound Research의 수석 분석가 Sanchit Vir Gogia는 이를 Anthropic만의 움직임이라기보다 업계 전반의 광범위한 전환이라고 평가했습니다. GitHub은 Copilot을 토큰(token) 및 크레딧 시스템으로 전환하고 있습니다. OpenAI는 API 액세스에 대해 항상 사용량 기반 요금제(usage-based pricing)를 적용해 왔습니다. 월 20달러의 고정 구독료로 무제한 에이전트 AI(agentic AI)를 사용하는 시대가 끝나가고 있습니다. 이는 팀의 예산 편성 방식에 실질적인 영향을 미칩니다. 지속적으로 테스트를 실행하고, 웹을 브라우징하며, 모델을 재귀적으로 호출(calls models recursively)하는 코딩 에이전트는 인간의 프롬프팅(prompting)과는 비교할 수 없는 방식으로 토큰 예산을 소진할 수 있습니다. 보도에 따르면 ServiceNow와 Uber라는 두 대기업은 한 해가 절반도 지나기 전에 연간 AI 토큰 예산을 모두 소진했습니다.

표준 및 프로토콜: WebMCP, A2A v1.2, 그리고 레이어 케이크(Layer Cake)
웹의 장기적인 형태에 있어 I/O에서 가장 중대한 발표는 어쩌면 가장 적은 관심을 받은 발표였을지도 모릅니다. Google은 Web Model Context Protocol의 약자인 WebMCP라는 제안된 오픈 표준(open standard)을 소개했습니다. WebMCP는 원래 2026년 2월 10일에 Google과 Microsoft가 공동 개발한 W3C 초안 커뮤니티 그룹 보고서(W3C Draft Community Group Report)로 발표되었습니다. Discovered Labs는 WebMCP가 스크린 스크래핑(screen scraping) 대신 구조화된 도구(structured tools)를 통해 AI 에이전트가 웹사이트와 상호작용할 수 있도록 하는 브라우저 네이티브 표준(browser-native standard)이라고 설명했습니다.

지금까지 AI 에이전트가 웹사이트와 상호작용하는 방식은 두 가지였습니다. 스크린샷을 찍고 텍스트를 시각적으로 읽는 방식이 있는데, 이는 느리고 취약(brittle)합니다. 또는 기존의 Model Context Protocol (MCP)을 통해 백엔드 API를 호출하는 방식이 있었으나, 이는 대부분의 웹사이트가 제공하지 않는 서버 측 협력(server-side cooperation)을 필요로 합니다. WebMCP는 세 번째 경로를 추가합니다. 웹사이트는 해당 페이지가 수행할 수 있는 작업들의 구조화된 목록인 Tool Contract (도구 계약)를 게시합니다. AI 에이전트는 이 목록을 읽고 작업을 직접 호출합니다. 추측하거나 눈먼 클릭(clicking around blindly)을 할 필요가 없습니다. 예를 들어, 여행 예약 사이트는 searchFlights 도구를 노출할 수 있고, 부동산 사이트는 filterListings 도구를 노출할 수 있습니다. 이 프로토콜은 브라우저의 navigator.modelContext를 통해 노출되며, 정적 콘텐츠를 위한 선언적(declarative) HTML 속성 버전과 동적 상호작용을 위한 명령형(imperative) JavaScript 버전이 모두 존재합니다. 이것이 겉으로 보이는 것보다 더 중요한 이유는 AI 트래픽이 어떻게 변화할 것인지에 대해 시사하는 바가 있기 때문입니다.

AI 위클리: Google의 코딩 스택 재편, Claude의 앞선 행보, 그리고 에이전트 프로토콜 스택의 강화 (2026년 5월 13일-20일

요약

핵심 포인트

댓글