본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 28. 16:35

토큰맥싱(Tokenmaxxing)은 증상일 뿐입니다. 모든 기업이 무시하고 있는 진짜 질병은 이것입니다.

요약

기업들이 AI 도입 과정에서 직면한 막대한 컴퓨팅 및 토큰 비용 문제를 다룹니다. Microsoft의 Claude Code 라이선스 축소와 Uber의 급격한 예산 소진 사례를 통해, AI 도구의 효율적 거버넌스 부재가 기업 경영에 미치는 실질적인 위협을 경고합니다.

핵심 포인트

  • NVIDIA 경영진도 인건비를 상회하는 컴퓨팅 비용 문제 인정
  • Microsoft는 비용 통제를 위해 Claude Code 대신 GitHub Copilot 사용 유도
  • Uber는 AI 코딩 도구 도입 후 4개월 만에 연간 예산 전액 소진
  • AI 도입 시 토큰 기반 과금에 대한 소비 거버넌스 구축 필수

NVIDIA의 응용 딥러닝 (Applied Deep Learning) 부사장인 Bryan Catanzaro는 2026년 4월 Axios 인터뷰에서 모든 기업의 AI 로드맵을 즉각 멈춰 세워야 했을 법한 발언을 했습니다:

"우리 팀의 경우, 컴퓨팅 (Compute) 비용이 직원들의 인건비를 훨씬 상회합니다."

이것은 비평가가 하는 말이 아닙니다. 지구상의 모든 AI 데이터 센터에 전력을 공급하는 칩을 판매하는 회사의 부사장이 하는 말입니다. NVIDIA의 경영진 스스로가 컴퓨팅 비용이 급여를 넘어선다고 인정할 때, "AI가 비용을 절감해 줄 것이다"라는 서사에는 문제가 발생합니다.

하지만 대부분의 기업은 이 신호를 놓쳤습니다. 그들은 토큰맥싱 (Tokenmaxxing)에 너무 몰두하고 있었습니다.

Microsoft, Claude Code 사용 중단

2026년 5월, Microsoft는 내부 Claude Code 라이선스의 대부분을 취소하기 시작했으며, 수천 명의 엔지니어를 대신하여 GitHub Copilot CLI로 재배치했습니다. 이러한 정책 전환은 Microsoft가 Windows, Microsoft 365, Outlook, Teams, Surface를 담당하는 Experiences + Devices 부서 전반에 Claude Code에 대한 광범위한 접근 권한을 개방한 지 6개월 만에 이루어졌습니다.

도입 속도는 빨랐습니다. 엔지니어, 프로젝트 매니저, 디자이너들은 프로토타이핑 (Prototyping)과 개발을 위해 이를 적극적으로 수용했습니다. 문제는 도구가 아니었습니다. 문제는 소비 거버넌스 (Consumption Governance)가 없는 상태에서 기업 규모로 적용된 토큰 기반 과금 방식이었습니다. 월간 청구 금액은 예측 불가능해졌고, 회계 연도 말 예산 회수(Pullback)를 유발할 만큼 높아졌습니다.

Anthropic과의 Microsoft 50억 달러 규모 Foundry 계약과 Anthropic의 300억 달러 규모 Azure 컴퓨팅 약정은 모두 그대로 유지되고 있습니다. 관계가 단절된 것이 아니라, 비용 통제를 위한 교정인 것입니다.

기능적으로 무한한 자원을 가진 기업조차 수천 명의 사용자에게 발생하는 제한 없는 AI 토큰 지출을 감당할 수 없었습니다. 이는 여러분에게 시사하는 바가 있을 것입니다.

Uber, 2026년 AI 예산을 4월 만에 모두 소진하다

Uber의 CTO인 Praveen Neppalli Naga는 2026년 4월, The Information을 통해 회사가 연간 AI 코딩 도구 예산 전체를 단 4개월 만에 모두 소진했다고 확인했습니다. Claude Code는 2025년 12월에 출시되었습니다. 도입률은 2월에 엔지니어의 32%에서 3월에는 에이전트형 코딩 (agentic coding) 사용자 분류 기준 84%로 급증했습니다. 봄이 되었을 때, 95%가 매달 AI 도구를 사용하고 있었으며, 커밋된 코드의 약 70%가 해당 도구에서 생성되었고, 라이브 백엔드 업데이트의 11%는 인간의 개입 없이 (no human in the loop) 에이전트에 의해 작성되었습니다.

엔지니어 1인당 비용은 평균 월 150달러에서 250달러 사이였으며, 헤비 유저(power users)는 500달러에서 2,000달러 사이를 지출했습니다. Naga 본인은 2시간 동안의 데모 세션에서 1,200달러를 사용했다고 보고했습니다. 도구가 실패한 것이 아니었습니다. 엔지니어들이 오용한 것도 아니었습니다. 그들은 도구가 처리하도록 설계된 바로 그 작업 부하(workloads)에 도구를 사용했습니다. 생산성 관점에서 이 도입은 성공적이었습니다. 재무 관점에서는 통제 불능(runaway) 상태였습니다.

Uber는 Claude Code 사용량을 기반으로 내부 리더보드(leaderboards)에서 엔지니어들의 순위를 매김으로써 이러한 역학 관계를 더욱 악화시켰습니다. 이는 더 많은 토큰을 소비하도록 만드는 문화적 인센티브를 생성했습니다. 도입을 주도하는 팀과 지출을 관리하는 팀은 동일하지 않았습니다.

그들은 누가 AI를 사용하는지는 측정했습니다. 하지만 출력 단위당 비용이 얼마인지는 전혀 측정하지 않았습니다.

토큰맥싱(Tokenmaxxing): 지표가 게임이 될 때

토큰맥싱(Tokenmaxxing): 지표가 게임이 될 때

"토큰맥싱(tokenmaxxing)"이라는 용어는 직원들이 자신의 사용량을 부풀리기 위해 사소하거나 불필요한 작업을 AI 도구로 돌리는 현상을 설명합니다. Amazon 직원들은 회사가 내부 AI 사용 목표를 설정하고 리더보드(leaderboard)를 통해 소비량을 추적한 후, 2026년 5월에 이러한 관행을 인정했습니다. Amazon은 공개적으로 해당 수치가 성과 검토에 반영되지 않을 것이라고 밝혔음에도 불구하고, 노동자들은 토큰 할당량(quota)을 채워야 한다는 압박을 느꼈다고 보고했습니다.

Meta에서도 "Claudeonomics"라고 불리는 내부 추적 도구를 통해 동일한 역학 관계가 나타났으며, 이 도구는 AI 토큰 소비량에 따라 직원들의 순위를 매겼습니다. 보도에 따르면 이 리더보드는 30일 동안 60조 개의 토큰이 소비되었음을 보여주었으며, Meta는 언론 보도 이후 이 도구를 폐기했습니다.

이것은 굿하트의 법칙(Goodhart's Law)이 실시간으로 구현된 사례입니다. 토큰 소비량이 추적되는 지표가 되는 순간, 그것은 더 이상 무엇인가를 측정하는 유용한 척도로서의 기능을 상실했습니다. 직원들은 그 숫자가 나타내야 할 업무가 아니라, 오직 숫자를 최적화하는 데 집중했습니다.

토큰맥싱은 직원의 행동 문제가 아닙니다. 이는 거버넌스(governance) 설계의 실패입니다. 가치를 측정하지 않고 소비량만을 측정한다면, 가치 없는 소비만을 얻게 될 것입니다.

모든 CFO를 두렵게 만들 Goldman Sachs의 계산법

Goldman Sachs는 연구 보고서를 발표하며, 에이전트형 AI(agentic AI)가 2030년까지 전 세계 토큰 소비량을 24배 증가시켜 월간 12경(120 quadrillion) 토큰에 달할 것이라고 예측했습니다. 그들의 분석은 다음과 같습니다: 표준 챗봇(chatbot)은 세션당 약 1,000개의 토큰을 소비합니다. 임베디드 코파일럿(embedded copilot)은 하루에 5,000개 이상의 토큰을 사용합니다. 지속적으로 활성화된 자율 에이전트(autonomous agent)는 하루에 100,000개 이상의 토큰을 소모합니다.

NVIDIA의 CEO Jensen Huang은 2036년까지 NVIDIA에서 모든 직원 한 명당 100개의 AI 에이전트가 함께 일하게 될 것 것이라고 말했습니다.

계산을 해보십시오. 직원 한 명당 100개의 에이전트가 있고, 에이전트당 하루에 100,000개의 토큰을 사용한다면, 직원 한 명당 하루에 1,000만 개의 토큰을 사용하는 셈입니다. 이를 중간 규모의 엔지니어링 팀에 곱해보면, 가격(pricing)에 대해 논하기도 전에 숫자가 터무니없이 커집니다.

Gartner는 2030년까지 1조 개의 파라미터(parameter)를 가진 모델의 추론(inference) 비용이 2025년보다 90% 이상 저렴해질 것 것이라고 전망합니다. 하지만 그들의 분석가인 Will Sommer는 다음과 같이 주의를 주었습니다: "최고 제품 책임자(CPO)들은 범용 토큰(commodity tokens)의 가격 하락을 프런티어 추론(frontier reasoning)의 민주화와 혼동해서는 안 됩니다." 에이전트형 모델(Agentic models)은 표준 모델보다 작업당 5배에서 30배 더 많은 토큰을 필요로 합니다. 소비량의 증가가 단위 비용의 하락보다 더 빠르게 진행될 것입니다. 그리고 AI 제공업체들이 그 절감액을 전부 고객에게 전달하지는 않을 것입니다.

더 저렴해진 토큰, 작업당 더 많은 토큰, 폭발적으로 증가하는 작업 수. 청구 금액은 올라갑니다.

패턴은 명확합니다. 해결책은 복잡하지 않습니다.

Microsoft, Uber, Amazon, Meta. 지구상에서 가장 기술적으로 정교한 네 기업 모두 동일한 벽에 부딪혔습니다. 그 패턴은 다음과 같습니다:

  1. 경영진의 명령이 광범위한 AI 도입을 추진함
  2. 리더보드(Leaderboards)나 사용량 지표가 소비량을 추적함
  3. 소비량을 비즈니스 가치와 연결하는 메커니즘이 없음
  4. 토큰 기반 가격 책정이 예측 불가능하고 급증하는 비용을 초래함
  5. 예산 초과로 인해 사후 대응적인 축소 또는 취소가 발생함

질병은 AI가 아닙니다. 질병은 거버넌스 (Governance) 없는 도입입니다. 소비 게이트 (Consumption gates)도 없고, 비용 상한선 (Cost ceilings)도 없으며, 토큰을 결과물 (Deliverable)과 연결할 방법도 없습니다.

저는 이러한 헤드라인들이 등장하기 몇 달 전에 사전 조치 게이트 (Pre-action gates)에이전트 운영 안전성 (Agent production safety)에 대해 글을 썼습니다. OpenClaw가 한 달에 130만 달러를 지출한 사례처럼 100개의 Codex 에이전트를 실행하든, 10,000명의 엔지니어에게 Claude Code를 배포하든 원칙은 동일합니다. 요청 (Request)과 지출 (Spend) 사이에 게이트 (Gate)가 없다면, 지출이 승리하게 됩니다.

에이전트 시대 (Agentic era)에서 살아남을 기업은 가장 빠르게 도입하는 기업이 아닙니다. 에이전트를 구축하기 전에 하네스 (Harnesses)를 구축하는 기업입니다. 토큰이 아니라 결과물 (Output)을 측정하십시오. 사용자별, 팀별, 작업 카테고리별로 비용 상한선 (Cost ceilings)을 설정하십시오. 소비를 리더보드 순위가 아닌 결과물 (Deliverables)에 귀속시키십시오.

토큰맥싱 (Tokenmaxxing)은 바로 그 단계를 건너뛸 때 발생하는 현상입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0