하루 1달러로 즐기는 헤비 AI 코딩: 7개의 제품을 유지하기 위해 사용하는 정확한 스택

OpenAI가 출력 토큰 100만 개당 800달러인 o3-Pro를 막 출시했습니다. Cursor는 Agent Mode(에이전트 모드)를 GA(General Availability, 정식 출시)했습니다. 이번 주 대부분의 엔지니어링 팀의 AI 비용이 상승했습니다.

이번 달 저의 전체 AI 인프라 비용은 24달러입니다.

이 모든 것은 하나의 라우팅 아키텍처(routing architecture) 위에서 작동합니다. 이것이 정확히 어떻게 작동하는지 설명하겠습니다.

4-CLI 아키텍처

핵심 통찰은 어떤 모델을 사용할 것인가가 아닙니다. 각 CLI(Command Line Interface)가 가장 잘하는 일만 수행하도록 어떻게 서로 연결하느냐입니다.

Claude Code — 오케스트레이터 (The Orchestrator)

Claude Code는 지휘 본부입니다. 계획을 세우고, 검토하며, 명령을 내립니다. 직접 코드를 작성하지 않습니다. 이것이 비용에 관한 모든 것을 바꾸는 규칙입니다.

Claude Code가 직접 코드를 작성하게 되면, SWE-bench 수준의 경쟁력을 가진 모델들이 동일한 품질로 처리할 수 있는 작업에 대해 월 23달러 상당의 오케스트레이터 등급 토큰을 소모하게 됩니다. 대신, Claude는 아키텍처를 계획하고, 코딩 작업은 CommandCode로 전달하며, 리서치는 Gemini로 전달하고, 이미지 또는 자율 작업은 Hermes로 전달합니다. Claude는 전체 판을 보고, 다른 CLI들이 실제 작업을 수행합니다.

Gemini CLI — 리서치 및 이미지 엔진

무료입니다. Google 계정만 있으면 됩니다. 1M(100만) 컨텍스트 윈도우(context window)를 제공합니다. SLM Hub를 통한 MCP(Model Context Protocol)를 통해 Claude Code와 연결되어 있으므로, Claude가 리서치 쿼리를 전달하면 Gemini가 세션을 떠나지 않고 이를 실행합니다. 웹 리서치, 문서 분석, 검증, 대규모 컨텍스트 요약 등 이 전체 레이어에 드는 비용은 0원입니다.

대부분의 개발자가 놓치는 점은 Google AI Studio에서 제공하는 Gemini의 무료 API 키가 이미지 생성 기능도 활성화한다는 것입니다. (현재 이 기능을 담당하는 모델인) Gemini 2.5 Flash Image는 하루 최대 500장의 이미지를 무료로 제공합니다. 1024×1024 해상도이며 신용카드가 필요하지 않습니다. 유료인 Imagen 4에 비하면 제한적이지만, 빠른 블로그 커버 초안, 소셜 포스트 비주얼, 디자인 반복 작업에는 하루 500장의 무료 이미지가 충분하고도 남습니다. 비용이 전혀 들지 않는 또 하나의 창의적인 레이어입니다.

CommandCode AI — 코딩 워크호스 (The Coding Workhorse)

이곳에서 하루 1달러라는 계산이 구체화됩니다.

구독 모델: 월 1달러를 지불하면 10달러 상당의 CommandCode 크레딧을 받습니다. 여기에 5달러의 크레딧을 추가하면 한 달 총 지출은 6달러가 됩니다. 이 6달러 안에서, 영구 할인된 요율을 통해 시중에서 가장 높은 평가를 받는 코딩 모델들로 40~50달러 상당의 작업을 수행할 수 있습니다.

CommandCode 내부의 모델들과 그 중요성:

DeepSeek V4 Pro — 4배 할인된 가격으로 이용 가능합니다. SWE-bench 점수가 Claude Opus에 근접합니다. 순수 코딩 작업에서는 Sonnet보다 뛰어납니다. 1M 컨텍스트(Context), 384K 출력(Output)을 지원합니다. 복잡한 다중 파일 기능 구현 및 아키텍처 작업에는 이 모델을 사용합니다.

DeepSeek V4 Flash — 빠르고 유능하며 1M 컨텍스트를 지원합니다. 품질과 함께 속도가 필요할 때 사용하는 고처리량(High-throughput) 옵션입니다.

MiMo V2.5 Pro — 10배 할인(99% 할인)된 가격으로 이용 가능합니다. 최고 수준의 오픈 웨이트(Open-weight) 코딩 모델 중 하나로 벤치마크 성능을 보여줍니다. 보일러플레이트(Boilerplate), 단위 테스트(Unit tests), 리팩터링(Refactoring), API 통합 등 대부분의 코딩 작업에서 10배 할인된 MiMo V2.5 Pro를 사용하면 모든 작업이 사실상 무료가 됩니다.

Qwen 3.7 Max — 2배 할인됩니다. 코드를 한 줄 쓰기 전에 전체 시스템을 이해해야 하는 추론 중심의 코딩 작업에 강력합니다.

이 할인들은 영구적입니다. 프로모션이 아닙니다. 이것이 CommandCode의 모델입니다. 플랫폼 가격 책정에 구조화된 할인이 내장된 정액제 구독 방식입니다.

OpenRouter의 GLM 5.1(약 $0.26/M tokens)은 CommandCode 외부에서 무겁고 복잡한 작업이 필요할 때 사용하는 보조 옵션입니다. 구독 없이 종량제(Pay-per-token)로 접근 가능한 최고의 오픈 SWE-bench Pro 모델입니다.

Hermes Agent — 창의적이고 자율적인 레이어

만약 X (Twitter) 구독을 사용 중이라면, 이미 SuperGrok을 보유하고 있는 것입니다. Hermes는 xAI OAuth를 통해 추가 비용 없이 이에 연결됩니다. 이를 통해 Grok의 imagine 기능을 활용한 무료 AI 이미지 생성 및 비디오 생성이 가능해집니다. 블로그 포스트용 커버 이미지, B-roll 비디오 클립, 소셜 미디어 비주얼 등 이 모든 것이 무료입니다. 이미 Twitter 구독료를 지불하고 있기 때문입니다. 또한 Hermes는 자율 에이전트 (autonomous agent) 작업을 위해 OpenRouter를 통해 245개의 모델에 연결되며, 사용자가 작업하는 동안 백그라운드에서 실행됩니다. 새로운 API 키도, 새로운 구독도 필요 없습니다. 이미 비용을 지불한 단 하나의 CLI면 충분합니다.

무료 티어 (Free Tier): 비용이 전혀 들지 않는 세 가지 모델

유료 API를 사용하기 전에, 일반적인 날의 작업량 중 60~70%는 무료 티어가 처리합니다. 세 모델 모두 OpenRouter에서 제공되므로, 하나의 계정으로 직접 접근할 수 있으며 별도의 게이트웨이가 필요하지 않습니다.

DeepSeek Flash:free (openrouter.ai/deepseek/deepseek-chat-v4-0324:free) — 1M 컨텍스트 (context), $0, 일일 약 1,000회 요청 가능. 보일러플레이트 (Boilerplate), 대량 생성, 빠른 조회 작업에 적합합니다.
Nemotron 3 Super 120B (openrouter.ai/nvidia/llama-3.1-nemotron-ultra-253b-v1:free) — 1M 컨텍스트 (context), $0. 전체 리포지토리 (repository) 읽기 및 대규모 컨텍스트 분석에 최적입니다.
Gemini CLI — Google 계정을 통해 무료로 사용 가능하며, 모든 리서치 쿼리 (research queries)를 처리합니다.

Hermes Agent는 별도의 설정 없이도 OpenRouter와 즉시 연결되도록 설계되어 있어, 다양한 제공업체의 245개 모델을 하나의 CLI에서 모두 사용할 수 있습니다. 추가적인 라우팅 레이어 (routing layer)가 필요하지 않습니다. Hermes가 구성되는 즉시 무료 티어를 사용할 준비가 완료됩니다.

라우팅 규칙은 타협의 여지가 없습니다: 먼저 무료 OpenRouter 모델을 최대한 활용하십시오. 작업에 진정으로 필요할 때만 유료 모델로 격상(escalate)합니다.

Qualixar 스택 — 모든 것을 작동하게 만드는 숨겨진 레이어

이것은 저렴한 AI 설정을 구축하는 대부분의 엔지니어들이 완전히 놓치는 레이어입니다.

**SuperLocalMemory (SLM)**은 메모리 브레인(memory brain)입니다. 모든 결정, 모든 코드베이스 패턴, 모든 과거 세션의 출력값이 로컬에 저장됩니다. 새로운 세션이 시작되면 SLM은 해당 컨텍스트(context)를 즉시 제공합니다. 덕분에 Claude Code는 파일을 다시 읽거나 아키텍처를 다시 설명할 필요 없이 당신이 멈췄던 지점에서 정확히 작업을 이어갑니다. 처음부터 다시 시작할 때 발생하는 토큰 오버헤드(token overhead)가 사라집니다.

주당 50번의 세션을 진행할 경우, SLM만으로 절약되는 비용이 나머지 스택 전체 비용을 초과합니다.

SLM MCP Hub는 GitHub, 데이터베이스, 웹 리서치, 디자인 도구, 트레이딩 API, 생산성 제품군 등 50개 이상의 MCP 도구를 스택 내의 모든 CLI에 동시에 연결합니다. 이 Hub는 Claude Code가 Gemini로 작업을 배정하고, Hermes가 컨텍스트를 얻으며, CommandCode가 메모리를 공유하는 방식입니다. Hub가 없다면 50개의 개별 통합(integration)과 수동 컨텍스트 전달이 필요할 것입니다. Hub가 있으면 전체 도구 생태계가 하나의 일관된 시스템처럼 작동하며, SLM이 관련 컨텍스트를 미리 로드하기 때문에 도구 호출당 토큰 비용이 거의 제로에 가깝습니다.

SkillFortify는 기술(skill)에 대한 품질 게이트(quality gate)입니다. 새로운 Claude Code 기술(예: Caveman, 리서치 기술, 코딩 패턴 등)을 다운로드하면, SkillFortify는 해당 기술이 스택에 적용되기 전에 실제 모델 백엔드(model backends)를 대상으로 테스트를 수행합니다. Claude Sonnet에서 작동하는 기술 프롬프트가 MiMo V2.5나 GLM에서는 조용히 실패할 수도 있습니다. SkillFortify는 이러한 성능 저하를 운영 환경(production)이 아닌 테스트 단계에서 잡아냅니다. 스택 내의 모든 기술은 실제로 실행될 모델 계층(model tiers) 전반에 걸쳐 강화(fortified)되었습니다.

세 가지 Qualixar 제품. 하나의 일관된 인프라 레이어. 이것이 저렴한 API의 집합을 신뢰할 수 있는 엔지니어링 관행으로 바꾸는 핵심입니다.

실제 수치

월간 고정 요금 (협상 불가능한 기본값):

구성 요소	월간	일일
Claude desktop ($23/mo)	$23	~₹64
...

헤비 코딩 달(month)을 위한 CommandCode 크레딧 계산:

지출	제공 사항
$1/mo 구독	$10 CommandCode 크레딧 포함
...

가변 API (필요 시, 사용량이 많은 날):

모델	비용	사용 시점
GLM 5.1 (OpenRouter, ~$0.26/M)	₹40–80/day	CommandCode 외부에서 추가적인 품질이 필요한 복잡한 작업
DS Flash:free, Nemotron (free)	₹0	보일러플레이트 (Boilerplate), 대량 작업, 대규모 컨텍스트 읽기

현실적인 일일 총액:

가벼운 날: ~₹67 (정액제만 사용 시)
헤비 코딩 날: ~₹100–150 (정액제 + 일부 GLM 사용 시)

비교: 동일한 엔지니어링 결과물을 Claude API나 GPT-4o로 단순하게 라우팅할 경우, 헤비 코딩 날에는 하루에 ₹800–1,200의 비용이 발생합니다. 이러한 라우팅 규율(routing discipline)이 차익 거래(arbitrage)의 핵심입니다.

스택을 구동하는 4가지 오픈 소스 도구

Caveman — github.com/JuliusBrussee/caveman (66K ⭐)
Claude Code 스킬로 설치됩니다. 출력을 간결한 기술적 "원시인 말투 (caveman speak)"로 강제하여, 코드 품질을 유지하면서도 출력 토큰을 65% 절감합니다. 모델 티어 전반에 걸쳐 동작을 확인하려면 먼저 SkillFortify를 통해 실행해 보세요. 일반적인 코딩 세션에서 Caveman 하나만으로도 가변 비용을 절반 이상 낮출 수 있습니다.

Open Design — github.com/nexu-io/open-design (55K ⭐)
로컬 우선(Local-first) 방식의 오픈 소스 디자인 도구입니다. 259개의 내장 스킬과 142개의 디자인 시스템을 제공합니다. Gemini CLI 및 Claude Code와 통합되어 프로덕션 수준의 컴포넌트 코드를 생성합니다. Figma 구독이 필요 없으며, 클라우드 종속성(cloud lock-in)도 없습니다. 새로운 디자인 스킬을 실제 워크플로에 배포하기 전에 SkillFortify를 통해 검증하세요.

OmniRoute — github.com/diegosouzapw/OmniRoute (5.5K ⭐)
아직 OpenRouter를 직접 사용하고 있지 않다면, OmniRoute는 하나의 엔드포인트를 통해 160개 이상의 제공업체에 도달할 수 있는 가장 간단한 방법입니다. 이 중 50개 이상은 완전히 무료입니다. 하나의 API 키로 용량이 있는 무료 제공업체로 자동 라우팅됩니다. 이미 Hermes Agent를 사용 중이라면 OpenRouter 액세스가 이미 내장되어 있습니다. OmniRoute는 Hermes를 실행하지 않고 전용 게이트웨이를 원하는 팀이나 설정에 적합합니다.

AgentAssert Type-C — github.com/qualixar/agentassert · pip install agentassert
AI 에이전트를 위한 행동 기반 어설션 (Behavioral assertions). "이 에이전트는 X 토큰 미만의 작업에 대해서는 반드시 프리 티어 (free tier)를 유지해야 한다." "이 에이전트는 MiMo V2.5가 처리할 수 있을 때 DeepSeek Pro를 호출해서는 안 된다." 만약 운영 환경에서 어설션 (assertion)이 깨지면, 예상치 못한 청구서 대신 알림을 받게 됩니다. 에이전트가 밤새 자율적으로 실행될 때, 하루 1달러의 설정을 그대로 하루 1달러로 유지해 주는 신뢰성 계층 (reliability layer)입니다.

엔드 투 엔드 워크플로우 (The Workflow, End to End)

1. 계획 (Plan)          → Claude Code (저렴한 오케스트레이션 (orchestration) — 계획 및 배정, 직접 코딩은 하지 않음)
2. 조사 (Research)      → Gemini CLI (무료, SLM Hub를 통해 Claude가 배정)
3. 코딩 (Code)          → CommandCode CLI (DeepSeek Pro/Flash, MiMo V2.5 Pro, Qwen 3.7)
...

Claude는 코드를 작성하지 않습니다. 오케스트레이션 (orchestration)을 수행합니다. SLM Hub는 컨텍스트 (context)를 라우팅 (routing)합니다. SkillFortify는 모델 계층 전반에 걸쳐 프롬프트 신뢰성 (prompt reliability)을 유지합니다. AgentAssert는 에이전트가 사용자가 정의한 라우팅 경로 (routing lanes) 내에 머물도록 관리합니다.

이것은 단순히 가동 시간 (uptime)뿐만 아니라 비용에 적용된 AI 신뢰성 공학 (AI Reliability Engineering)입니다.

이것은 저렴한 스택이 아닙니다. 우연히 저렴해진 프로덕션급 (Production-Grade) 스택입니다.

"무료 모델 몇 개를 찾아 덕테이프로 이어 붙였다"와 "엔터프라이즈 프로덕션 표준을 충족하면서 무료 모델로 작동하는 라우팅 아키텍처 (routing architecture)를 구축했다" 사이에는 결정적인 차이가 있습니다. 이 스택은 후자에 해당합니다. 왜 이 차이가 중요한지 설명하겠습니다.

이 스택의 제품들은 피어 리뷰 (peer-reviewed)를 거친 연구를 바탕으로 합니다.

SuperLocalMemory는 arXiv(2603.14588, 2603.02240)에 논문을 발표했으며, 이는 연구자들에 의해 인용되는 AI 에이전트(AI agents)의 메모리 아키텍처(memory architecture)에 관한 공식적인 학술 연구입니다. AgentAssert는 프로덕션 AI 시스템(production AI systems)을 위한 행동 어설션 프레임워크(behavioral assertion frameworks)에 관한 논문(arXiv 2602.22302)을 발표했습니다. SkillFortify(arXiv 2603.00195)는 모델 백엔드(model backends) 전반에 걸친 프롬프트 저하(prompt degradation) 문제를 다룹니다. AgentAssay(arXiv 2603.02601)는 에이전트 평가 방법론(agent evaluation methodology)을 다룹니다. QOS는 OS 레벨의 신뢰성 계층(OS-level reliability layer)을 다루는 공식적인 arXiv 제출물을 보유하고 있습니다. 각 제품은 연구적 토대를 갖추고 있습니다. 이는 마케팅 용어가 아니라, 읽고, 비판하고, 재현할 수 있는 방법론입니다.

이것들은 사이드 프로젝트(side projects)가 아닙니다. 가설, 방법론, 재현 가능한 벤치마크(reproducible benchmarks), 피어 리뷰(peer review)와 같이 산업 연구와 동일한 엄격함을 거친 AI 신뢰성 제품들입니다. AgentAssert가 여러분의 에이전트에 행동 규칙을 강제할 때, 그 강제 모델은 주말 동안 만든 해킹 결과물이 아니라 발표된 연구에 근거합니다.

보안 및 컴플라이언스(compliance) 계층은 사후 고려 사항이 아닙니다.

AgentAssert Type-C는 에이전트의 행동이 감사 가능(auditable)하고 강제(enforceable)되어야 하는 프로덕션 환경을 위해 특별히 설계되었습니다. 보안 어설션(Security assertions): "이 에이전트는 출력값에서 개인정보(PII)를 절대 노출해서는 안 된다." 컴플라이언스 어설션(Compliance assertions): "이 에이전트는 금융 데이터에 접근하는 모든 요청을 에스컬레이션(escalate)해야 한다." 비용 어설션(Cost assertions): "이 에이전트는 업무 시간 외에 유료 API를 호출해서는 안 된다." 이것들은 느슨한 가이드라인이 아닙니다. 위반 사항이 프로덕션에 도달하기 전에 실행되는 런타임 강제 규칙(runtime-enforced rules)입니다. 자율 에이전트(autonomous agents)를 밤새 실행하는 하루 1달러짜리 스택에서, 이것은 선택 사항이 아닙니다. 이것이 저렴한 실험과 신뢰할 수 있는 시스템을 구분 짓는 요소입니다.

모든 결정에는 16년 이상의 엔터프라이즈 솔루션 아키텍처(enterprise solution architecture) 경험이 녹아 있습니다.

이 스택의 라우팅 원칙 — 첫째는 무료 티어(free tier), 둘째는 할인 티어(discount tier), 셋째는 정액제(flat-rate), 그리고 진정으로 필요할 때만 유료 API(paid API)를 사용하는 방식 — 은 단순히 비용을 아끼기 위한 속임수가 아닙니다. 이는 성숙한 분산 시스템(distributed systems)이 구축되는 방식과 동일한 원칙입니다. 즉, 해당 작업의 신뢰성 서비스 수준 협약(SLA, Service Level Agreement)을 충족하면서 가장 저렴한 리소스로 라우팅하는 것입니다. 상태 확인(health check)을 위해 기본 데이터베이스(primary database)를 호출하지 않습니다. 로그 쿼리(log query)를 위해 GPU 클러스터(GPU cluster)를 호출하지 않습니다. 상용구 코드(boilerplate)를 작성하기 위해 Claude를 호출하지 않습니다.