본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 30. 15:18

Coinbase, GLM 5.2 및 Kimi K2.7로 전환하여 AI 비용 50% 절감 — 여러분도 따라 할 수 있는 방법

요약

Coinbase는 엔지니어링 작업에 Zhipu GLM 5.2와 Moonshot Kimi K2.7 같은 오픈 웨이트 모델을 도입하여 AI 비용을 50% 절감했습니다. 스마트 라우팅, 공격적 캐싱, 린 컨텍스트 전략을 통해 성능 저하 없이 효율적인 AI 활용 체계를 구축했습니다.

핵심 포인트

  • 프론티어 모델 대신 저렴한 오픈 웨이트 모델을 기본값으로 설정
  • 스마트 라우팅을 통해 작업 난이도에 따라 모델을 자동 배분
  • 캐시 히트율을 5%에서 60%로 높여 중복 계산 비용 절감
  • 불필요한 컨텍스트를 줄이는 린 컨텍스트 전략 활용

Coinbase, GLM 5.2 및 Kimi K2.7로 전환하여 AI 비용 50% 절감 — 여러분도 따라 할 수 있는 방법

Coinbase는 방금 모든 엔지니어를 위한 기본 모델로 중국산 오픈 웨이트 (open-weight) 모델을 설정했습니다. 그 결과는 무엇일까요? 토큰 사용량은 기하급수적으로 증가하는 동안 AI 비용은 절반으로 줄어들었습니다. 어떤 일이 일어났는지, 이것이 왜 중요한지, 그리고 여러분이 오늘 바로 이 설정을 어떻게 복제할 수 있는지 소개합니다.

실리콘 밸리를 뒤흔든 행보

지난 주말, Coinbase의 CEO Brian Armstrong은 X(구 트위터)를 통해 폭탄 발언을 했습니다. 회사가 모든 엔지니어의 기본 LLM (Large Language Model)을 Anthropic 및 OpenAI의 프론티어 (frontier) 모델에서 두 개의 중국산 오픈 웨이트 (open-weight) 모델인 Zhipu GLM 5.2Moonshot Kimi K2.7로 조용히 전환했다는 소식이었습니다. 결과는 어땠을까요? 토큰 소비량이 기하급수적으로 계속 증가하고 있음에도 불구하고, AI 지출이 거의 50% 절감되었습니다.

가장 놀라운 점은 무엇일까요? Armstrong은 이를 단순한 비용 절감을 위한 희생으로 규정하지 않았습니다. 그는 Coinbase 엔지니어의 91%가 원래의 사용 한도에 도달한 적이 없다는 사실을 밝혔습니다. 즉, 대부분의 일상적인 엔지니어링 작업에는 GPT-5나 Claude Opus가 필요하지 않았다는 의미입니다. 이번 조치는 AI 사용을 제한하려는 것이 아니라, _낭비를 막기 위한 것_이었습니다.

_"실행 수준의 작업에 프론티어 (frontier) 모델을 사용하는 것은 과잉 대응입니다,"_라고 Armstrong은 적었습니다. _"어떤 기업이든 이를 복제할 수 있습니다."

3단계 전략

Coinbase의 접근 방식은 단순히 "모델을 교체하고 돈을 아끼는 것"이 아니었습니다. 그들은 정교한 시스템을 구축했습니다:

  1. 스마트 라우팅 (Smart Routing): 내부 LLM 게이트웨이가 간단한 작업(코드 리뷰, 문서 요약, 데이터 정제)은 GLM/Kimi로 자동 라우팅하는 반면, 복잡한 다단계 에이전트 (agent) 작업은 여전히 프론티어 (frontier) 모델로 전달합니다.
  2. 공격적인 캐싱 (Aggressive Caching): 모든 요청이 캐시를 인식하도록(cache-aware) 만들어 캐시 히트율 (cache hit rate)을 5%에서 60%로 끌어올렸습니다. 이제 동일한 답변을 다시 계산할 필요가 없습니다.
  3. 린 컨텍스트 (Lean Contexts): 엔지니어들은 새로운 작업을 위해 새로운 세션을 시작함으로써, 단 한 줄의 질문을 하기 위해 30K 토큰의 히스토리를 그대로 들고 가는 함정을 피합니다.

이 철학은 간단합니다: 기본값은 저렴하고 유능한 모델로 설정하고, 필요할 때만 비싼 모델로 격상(escalate)하는 것입니다.

모델: GLM 5.2와 Kimi K2.7이 전환할 가치가 있는 이유

GLM 5.2 (Zhipu AI) — 2026년 6월 12일 MIT 라이선스로 출시:

  • 744B 파라미터, MoE (Mixture of Experts) 아키텍처 (토큰당 40B만 활성화)
  • Artificial Analysis 순위에서 #1 오픈 웨이트 (open-weight) 모델
  • SWE-bench Pro에서 GPT-5.5를 능가 (62.1 대 58.6), FrontierSWE에서는 Opus 4.8과 거의 대등
  • 가격: 입력 100만 토큰당 $1.40, 출력 100만 토큰당 $4.40 — $5/$25인 Opus 4.8보다 약 6배 저렴

Kimi K2.7 Code (Moonshot AI) — 역시 6월 12일 출시:

  • 128K 네이티브 컨텍스트 윈도우 (context window), 긴 문서 처리를 위해 구축됨
  • Cursor (Elon Musk가 600억 달러에 인수)에서 사용; 전환 후 ARR(연간 반복 매출)이 2억 달러 이상으로 두 배 증가
  • 코드 리뷰, 스크립트 생성, 스마트 컨트랙트 검증에 탁월
  • Moonshot의 기업 가치: 6개월 만에 43억 달러에서 200억 달러로 급등

Coinbase뿐만이 아닙니다 — 거대한 변화의 물결

이것은 단일 사례가 아닙니다. 트렌드는 가속화되고 있습니다:

기업수행 내용결과
Cloudflare내부 보안 에이전트를 위해 Kimi K2.5 배포비용 77% 절감, 일일 70억 토큰 처리
...

OpenRouter에서 중국 모델은 현재 전체 토큰 트래픽의 40% 이상을 차지하고 있으며, 이는 불과 1년 전 2% 미만이었던 것에 비해 크게 증가한 수치입니다. Qwen은 Hugging Face에서 가장 많이 다운로드된 오픈 웨이트 (open-weight) 모델 제품군으로서 Llama를 추월했습니다.

Coinbase의 설정을 복제하는 방법

Coinbase는 오픈 웨이트 (open-weight) 모델을 자체 서버에 셀프 호스팅(self-hosts)하며, 이는 기업의 컴플라이언스(compliance) 측면에서 훌륭하지만 막대한 GPU 인프라를 요구합니다. 대부분의 팀에게 가장 빠른 방법은 이 모든 모델에 접근할 수 있는 단일 엔드포인트를 제공하는 **API 애그리게이션 게이트웨이 (API aggregation gateway)**를 사용하는 것입니다.

여기에서 **MoToken AI**가 등장합니다. 이는 단일 API 키를 통해 GLM, Kimi, DeepSeek, Qwen 및 기타 중국 모델에 대해 OpenAI 호환 접근을 제공하는 통합 API 애그리게이션 서비스입니다. 여러 제공업체에 걸쳐 별도의 계정, 키 또는 SDK를 관리할 필요가 없습니다.

빠른 시작: cURL

curl -s https://api.motoken.top/v1/chat/completions \
  -H "Authorization: Bearer YOUR_MOTOKEN_API_KEY" \
  -H "Content-Type: application/json" \
...

Python: 나만의 스마트 라우터(Smart Router) 구축하기

MoToken의 통합 API를 사용하여 Coinbase의 계층형 라우팅(tiered routing) 전략을 구현한 최소한의 예시입니다:

from openai import OpenAI
import os

...

이 설정을 통해 단 한 줄의 코드만으로 model을 교체하여 GLM, Kimi, DeepSeek 또는 지원되는 다른 모델 사이를 즉시 전환할 수 있습니다. 이 모든 과정은 동일한 API 키와 엔드포인트를 통해 이루어집니다.

결론

Coinbase의 행보는 "중국 AI가 서구 AI를 압도한다"는 식의 자극적인 헤드라인과는 거리가 멉니다. 진짜 핵심은 **스마트한 계층화 (smart tiering)**에 있습니다. 대부분의 엔지니어링 작업에는 100만 토큰당 25달러짜리 모델이 필요하지 않으며, 중국의 오픈 웨이트 (open-weight) 모델과 서구의 폐쇄형 소스 (closed-source) 모델 사이의 가격 격차는 이제 무시할 수 없는 수준이 되었습니다.

Armstrong은 다음과 같이 말했습니다: "목표는 엔지니어들이 AI를 덜 사용하게 만드는 것이 아닙니다. 돈을 낭비하지 않으면서도 그들이 원하는 만큼 마음껏 사용할 수 있게 하는 것입니다."

이는 오늘날 모든 팀이 채택할 수 있는 철학입니다. Coinbase처럼 자체 호스팅을 하든, MoToken과 같은 애그리게이션 게이트웨이 (aggregation gateway)를 사용하든, 도구는 이미 준비되어 있습니다. 유일한 질문은 이것입니다: 당신은 여전히 일상적인 작업에 과도한 비용을 지불하고 있지는 않습니까?

여러분의 팀은 기본 모델로 무엇을 사용하시나요? GLM, Kimi 또는 다른 중국 오픈 웨이트 (open-weight) 모델을 실험해 보셨나요? 아래에 댓글을 남겨주세요. 여러분의 경험을 듣고 싶습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0