에이전트가 토큰 수요를 24배 증가시킬 수 있어, 골드만삭스 보고서: AI 비용 부담 시작 — 우버와 마이크로소프트 등이 토큰 기반 청구의 - Insights | Molayo

Satya Nadella attending the Elon Musk Sam Altman trial.

주요 기술 회사들은 과도한 AI 사용으로 인한 급등하는 가격을 정당화하는 데 어려움을 겪고 있으며, Microsoft나 Uber 같은 주요 기술 기업들조차 자신들의 AI 프로세스 변경을 검토하고 있습니다. 최근 Uber CTO Praveen Neppalli Naga가 회사가 단 몇 달 만에 2026년 전체 AI 예산을 소진했다고 올린 바이럴 게시물 이후, Uber의 운영 책임자 Andrew Macdonald는 토큰 사용량이 유용한 소비자 기능과 직접적인 상관관계가 없어 보인다고 말했습니다.

Microsoft는 이달 초 개발자들의 Claude Code 프로그래밍 어시스턴트 접근을 취소하기 시작했으며, 6월 30일까지 내부 Copilot CLI 도구로 이전할 계획입니다. 비록 이것이 팀들을 자체 개발 도구에 통합하는 것으로 포장되었지만, 이는 또한 Microsoft의 회계연도 말과 맞물려 있어 새로운 해를 앞두고 비용을 절감하기 위한 움직임일 수 있음을 시사합니다.

상황은 더욱 악화되고 있는데, Goldman Sachs는 에이전틱 AI(Agentic AI)가 향후 몇 년 동안 토큰 사용량이 24배 이상 증가할 것으로 추정합니다. AI의 필요성, AI의 요구사항, 그리고 비용이 쌓임에 따라 AI 회사들이 실제로 감당할 수 있는 현실 사이에는 점점 더 큰 괴리가 존재하는 것 같습니다.

토큰과 거래 제안

우리는 지난 몇 달 동안 기업들과 CEO들이 과도한 AI 배포의 실질적인 이점을 찾는 데 어려움을 겪고 있다는 보고를 들어왔습니다. Uber는 CTO가 연간 예산이 불과 몇 달 만에 소진되었다는 폭발적인 주장을 한 이후, 가장 최근에 이러한 '깨달음'을 얻은 AI 관련 기업으로 보입니다. Andrew Macdonald는 Business Insider와의 인터뷰에서 우버가 AI 사용에 투자하는 비용과 실제 소비자 기능 개발 사이에 명확한 상관관계가 없다고 한탄했습니다.

그는 시니어 엔지니어들과 대화한 결과, 더 높은 토큰 (token) 사용량과 고객에게 실질적인 이익을 주는 소비자 기능의 비례적인 증가 사이에는 아무런 연관성이 없다고 말했습니다. 비록 더 많은 코드가 배포되고 있다는 점은 인정했지만, 그것과 소프트웨어의 개선 사이의 '경계선을 긋는 것은 매우 어려웠다'고 덧붙였습니다.

한편, Microsoft는 작년 12월 직원들에게 Claude Code 구독을 개방한 이후, 많은 이들이 통합(consolidation)만큼이나 재무적인 움직임으로 보고 있는 정책을 통해 이를 다시 회수하고 있습니다. Microsoft는 또한 올해 초 해당 도구를 실행하는 비용이 급증함에 따라, GitHub의 Copilot을 토큰 기반 과금 (token-based billing) 방식으로 전환한다고 최근 발표했습니다.

이러한 현상의 주요 원인은 에이전트형 AI (agentic AI) 사용의 폭발적인 성장입니다. 이러한 에이전트들은 단일 AI 챗봇보다 1,000배 이상의 토큰을 소비할 수 있습니다.

더 많은 토큰이 정말 정답일까?

Nvidia의 CEO Jensen Huang은 올해 3월, 연봉 50만 달러를 받는 Nvidia 엔지니어가 같은 기간 동안 최소 25만 달러어치의 토큰을 사용하지 않는다면 경각심을 가질 것이라고 말한 것으로 유명합니다. 하지만 이러한 정서는 드문 것이 아닙니다. 많은 기업의 CEO들은 마치 AI 사용량 그 자체만으로 성능 향상과 동일시되는 것처럼, 자신들의 AI 사용 규모를 자랑하고 있습니다.

Business Insider의 보도에 따르면, Airbnb의 CEO는 투자자들에게 회사 코드의 60%가 현재 AI에 의해 생성되었다고 자랑스럽게 말했습니다. Chime은 올해 초 84%의 AI 코드를 배포하고 있다고 주장했으며, 심지어 Google조차 코드의 50%가 AI에 의해 생성되었다고 주장하고 있습니다 (단, 결정적으로 항상 인간 엔지니어의 검토를 거칩니다).

하지만 이러한 수치들은 Uber의 수치와 매우 유사하게 들립니다. 예산 통제 불능에 대한 CTO의 충격적인 보고서에서, 그들은 Uber 소프트웨어 엔지니어의 80% 이상이 에이전트형 AI를 사용하고 있으며, 코드의 60% 이상이 AI에 의해 생성되었다고 주장했습니다. 그럼에도 불구하고, 그것은 비용을 들일 가치가 없습니다.

그리고 가드레일 (guardrails)이 제거된다면 그 비용은 극단적일 수 있습니다. OpenClaw의 제작자이자 현재 OpenAI의 직원인 Peter Steinberger는 최근 자신의 3명으로 구성된 팀이 일련의 에이전트형 AI (agentic AI) 도구들을 실행하는 데 단 한 달 만에 130만 달러 이상의 토큰 비용을 지출했다고 발표했습니다.

이는 AI의 비용이 그것이 대체하기로 되어 있는 노동자의 비용보다 높아지고 있다는 생각을 매우 강력하게 뒷받침합니다. 이는 AI의 효율성과 생산성 덕분이라고 여겨지는 많은 해고 사례들이, 해당 기업들이 단순히 바닥을 향한 경주 (racing to the bottom)를 하고 있는 것이 아니라면 점점 더 근거가 희박해지게 만듭니다.

혹은 적어도 새로운 하드웨어를 향한 경주를 하고 있는 것일지도 모릅니다. Goldman Sachs의 최근 AI 에이전트 보고서는 차세대 추론 (inferencing) 칩에서 오는 막대한 효율성 이득이 AI 사용 비용을 훨씬 더 저렴하게 만들어 투자가 중단 없이 계속될 수 있게 하고, AI 에이전트가 AI 기업들의 매출을 엄청나게 증가시킴에 따라 수익이 뒤따를 것이라고 시사합니다.

더 빠르고 효율적인 하드웨어는 너무 오래 걸릴 것이다

Nvidia는 Computex에서 자사의 Vera Rubin 플랫폼을 홍보할 것이며 올해 말에 공식적으로 출시할 예정입니다. 이 플랫폼은 AI 성능을 몇 배로 향상시키고, 새로운 공정 노드 (process node)를 사용하며, 전력당 성능이 보고된 바에 따르면 최대 10배에 달해 이전 모델들보다 훨씬 더 효율적일 것입니다.

이러한 엄청난 이득은 이 카드들을 가장 먼저 배치하는 AI 기업들에게 여전히 Blackwell 하드웨어를 실행 중인 기업들, 그리고 구형 Hopper 설계보다 훨씬 더 큰 우위를 제공할 것입니다. 하지만 Blackwell 하드웨어를 염두에 두고 발표된 데이터 센터 프로젝트의 50% 이상이 취소되거나 지연되었으며, 내년에 완료될 프로젝트들 중 개발자들이 이제 막 시작한 GPU를 교체하는 데 얼마나 열성적일지는 미지수입니다.

2025년 말, Google, Oracle, Microsoft는 모두 하드웨어 계획을 완전히 반대 방향으로 조정하며, 하드웨어를 교체하기 전에 6년 동안 가동할 것임을 시사했습니다. 이는 매년 이루어지는 야심 찬 AI 계획 및 하드웨어의 도약과 조화를 이루기에는 불가능해 보입니다.

더 비효율적인 하드웨어에서 더 많은 토큰을 사용함

현실은 일부 토큰 비용이 하락하고 있음에도 불구하고, 에이전트형 AI (Agentic AI) 수요의 폭발적인 증가는 하드웨어 효율성 향상만으로는 상쇄될 수 없다는 것입니다. 하드웨어 효율성 향상은 효과적인 배포 단계에 도달하기까지 수년이 더 걸릴 것이며, 설령 도달한다 하더라도 이러한 AI 수요 급증을 따라잡는 데 필요한 규모에 이를 수 있을지는 미지수입니다.

이는 단기적으로 Microsoft와 Uber 같은 대기업조차도 예산을 파괴하지 않으면서 어떻게 대규모로 AI를 계속 사용할 수 있을지 파악하기 위해 AI 사용 방식을 재구조화하고 있음을 의미합니다. 만약 이러한 기업들조차 비용을 감당할 방법을 찾지 못한다면, 나머지 기업들이 어떻게 감당할 수 있을지 상상하기는 점점 더 어려워질 것입니다.

그리고 만약 비용 상승으로 인해 사용량이 감소한다면, AI 기업들은 여전히 정당화하려고 노력 중인 막대한 인프라 지출을 상쇄하는 데 필요한 단기적 수익을 결코 찾지 못할 것입니다.

Jon Martindale는 Tom's Hardware의 기고가입니다. 지난 20년 동안 그는 PC 부품, 신기술, 그리고 최신 소프트웨어 발전에 대해 글을 써왔습니다. 그의 깊고 폭넓은 저널리즘 경험은 오늘날과 내일의 가장 흥미로운 기술 트렌드에 대한 독특한 통찰력을 제공합니다.

에이전트가 토큰 수요를 24배 증가시킬 수 있어, 골드만삭스 보고서: AI 비용 부담 시작 — 우버와 마이크로소프트 등이 토큰 기반 청구의

요약

핵심 포인트

토큰과 거래 제안

더 많은 토큰이 정말 정답일까?

더 빠르고 효율적인 하드웨어는 너무 오래 걸릴 것이다

더 비효율적인 하드웨어에서 더 많은 토큰을 사용함

댓글