Coinbase, 엔지니어의 제약을 받지 않고 AI 지출을 절반으로 줄인 전략
요약
Coinbase는 오픈 웨이트 모델 활용, 작업 기반 라우팅, 캐싱 최적화 등 5가지 전략을 통해 AI 지출을 절반으로 줄였습니다. 이는 기업들이 비용 효율성을 위해 고가의 폐쇄형 모델에서 저렴한 오픈 웨이트 모델로 전환하는 추세를 보여줍니다.
핵심 포인트
- 오픈 웨이트 모델(GLM, Kimi)을 기본값으로 설정하여 비용 절감
- 작업 난이도에 따른 모델 라우팅 및 캐싱 히트율 개선(5%→60%)
- 엔지니어의 자율성을 보장하면서 지출 가시성을 통한 책임감 부여
- 기업의 예산 압박이 OpenAI, Anthropic의 매출에 직접적 영향
Coinbase는 토큰 사용량이 기하급수적으로 증가하는 동안 AI 지출을 절반으로 줄였습니다. CEO Brian Armstrong는 이번 주 X(구 트위터)에 그 세부 내용을 게시했습니다. 5가지 구체적인 레버(levers), 액세스 제한 없음, 그리고 엔지니어의 91%가 기존의 사용 제한에 걸리지 않았다는 내용입니다.
마지막 포인트가 중요합니다. 이것은 개발자를 제한하는 것에 대한 이야기가 아닙니다. 더 스마트하게 라우팅(routing)하는 것에 대한 이야기입니다.
"우리는 LLM 게이트웨이(gateway)를 통해 기본 설정을 오픈 웨이트(open weight) 모델인 GLM 5.2 및 Kimi 2.7로 설정하는 실험을 진행하고 있으며, 동시에 엔지니어들이 작업에 적합한 모델을 선택하도록 권장하고 있습니다."
— Brian Armstrong, Coinbase CEO
실제로 무엇이 바뀌었나
Armstrong은 Coinbase가 실행한 5가지 레버를 설명했습니다:
- 게이트웨이 기본값 (Gateway defaults) — 엔지니어들은 이제 기본적으로 GLM 5.2 (Zhipu AI)와 Kimi 2.7 (Moonshot AI)을 사용하며, 두 모델 모두 오픈 웨이트(open-weight) 모델입니다. 사용자가 설정을 변경할 수 있지만, 기본 설정이 대부분의 작업을 처리합니다.
- 작업 기반 라우팅 (Task-based routing) — 프롬프트(prompts)는 난이도와 가격에 따라 최적의 모델로 자동 매칭됩니다. 모든 작업에 Opus가 필요하지는 않습니다.
- 캐싱 (Caching) — 히트율(Hit rate)이 5%에서 60%로 상승했습니다. 이는 12배의 개선이며, 전체 목록 중 가장 영향력이 큰 단일 변화입니다.
- 린 컨텍스트 (Lean context) — 작업을 전환할 때 새로운 세션을 시작합니다. 오래된 컨텍스트(context)를 계속 끌고 다니지 않습니다.
- 지출 가시성 (Spend visibility) — 엔지니어별 토큰 사용량이 공개되며, 명확한 기대치가 부여됩니다: "AI에 더 많이 지출할수록, 우리는 더 큰 임팩트를 기대합니다." 강제적인 제한은 없으며, 오직 책임감(accountability)만 강조합니다.
이것이 한 기업의 인프라 게시물보다 더 중요한 이유
GLM 5.2는 입력/출력 토큰 100만 개당 약 $1.40/$4.40 수준에서 작동합니다. Anthropic Opus 4.8은 $5/$25로, Coinbase 규모의 토큰 볼륨에서는 빠르게 누적되는 3~6배의 가격 차이가 발생합니다.
Coinbase만 그런 것이 아닙니다. Snowflake의 CEO는 GLM 5.2가 훨씬 적은 비용으로 Opus 4.7과 경쟁력이 있다는 것을 발견했습니다. AI 스타트업인 Lindy는 Claude를 완전히 떠나 DeepSeek v4로 전환했습니다. 이것들은 일회성 실험이 아닙니다. 기업의 예산 압박이 실제 워크로드(workloads)를 더 저렴한 오픈 웨이트(open-weight) 모델로 이동시키고 있다는 신호입니다.
이는 Anthropic과 OpenAI 모두에 직접적인 매출 압박으로 작용합니다. 두 기업 모두 지속 가능한 기업용 매출 성장이 필수적인 IPO(기업공개) 시점에 근접해 있거나 이를 위해 적극적으로 준비 중이기 때문입니다.
실행 방안
어떤 규모로든 AI 인프라(infra)를 운영하고 있다면, Coinbase가 제시한 5가지 전술 중 3가지는 지금 당장 독립적으로 실행 가능합니다.
- 캐싱 히트율(caching hit rate)을 점검하세요. 만약 히트율이 20% 미만이라면, 비용을 낭비하고 있는 것입니다. 프롬프트(prompt) 구조가 인프라보다 이 수치에 더 큰 영향을 미치는 경우가 많습니다.
- 작업 복잡도에 따라 라우팅(route)하세요. 모든 작업에 가장 똑똑하고(가장 비싼) 모델이 필요하지는 않습니다. 작업을 분류하고 그에 따라 라우팅하십시오. 단순히 "단순함/복잡함"으로 나누는 것만으로도 큰 효과를 볼 수 있습니다.
- 기본값은 낮게, 필요할 때만 높게 설정하세요. 게이트웨이(gateway)의 기본값을 더 저렴한 모델로 전환하십시오. 엔지니어들이 필요할 때만 모델을 상향(escalate)할 수 있도록 허용하십시오. 데이터에 따르면 대부분의 경우 상향 조정이 필요하지 않을 것입니다.
오픈 웨이트(open-weight) 중국 모델(GLM, Kimi, DeepSeek)은 라이선스 및 데이터 레지던시(data residency) 고려 사항이 있으므로, 특히 규제 산업의 경우 귀사의 컴플라이언스(compliance) 요구 사항과 대조하여 확인할 가치가 있습니다. 또한 라우팅 정책은 엣지 케이스(edge cases)에서 조용한 품질 저하를 초래할 수 있는데, 이는 Armstrong의 게시글에서 다루지 않은 부분입니다. 신뢰하기 전에 먼저 테스트하십시오.
출처: Let's Data Science · Armstrong's X post (2026년 6월 28일)
✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기