터미널 코딩 CLI 생태계: 2026년 5월 8일 보고서 통합

NextFuture에 원래 게시되었습니다. 2026년 5월 8일에서 5월 20일 사이에 Claude Code, Codex CLI, Gemini CLI, GitHub Copilot CLI와 같은 터미널 코딩 CLI 에이전트에 관한 8개의 엔지니어링 포스트 및 벤치마크 (Benchmark) 보고서가 발표되었습니다. 이 8개의 소스 전반에 걸쳐 분포는 매우 넓습니다. 한 툴킷은 자체 작업 세트에서 100점 만점에 80점을 기록했고, Llama 3.2 셀프 호스팅 (Self-host)은 교체 전 API 비용의 1/160 수준으로 작동한다고 보고되었으며, 프론티어 모델 (Frontier models)의 공개 가격은 여전히 백만 토큰당 10배 이상 차이가 납니다. 이 포스트는 단일 벤더의 차트를 신뢰하지 않고도 이 네 가지 CLI 중에서 선택할 수 있도록 수치와 그 뒤에 숨겨진 방법론을 통합합니다. 요약(TL;DR):

구분	Claude Code	Codex CLI	Gemini CLI	Copilot CLI
소스 (Sources)	라이선스: 독점 (Proprietary)	Apache 2.0	Apache 2.0	독점 (GitHub)
보고서 수	2개 보고서	1개 보고서	3개 보고서	3개 보고서
구현 (Implementation)	TypeScript	TypeScript	TypeScript	TypeScript / Node
기본 모델 (Default model)	Claude Opus / Sonnet 4.x	GPT-5.x	Gemini 2.x → 3.5 Flash	GPT-5.x + Copilot 라우팅 (routing)
프론티어 가격 ($ / 1M 출력 토큰)	~$15.00 (Opus 4.7 티어)	~$10.00 (GPT-5.5 티어)	Gemini 3.5 Flash ≪ 프론티어	정액제 + 요청당 게이트 방식 (per-request gated)
기술 / 확장 생태계 (Skill / extension ecosystem)	Skills, MCP, /advisor	MCP, 도구 (tools), Skills	MCP, 도구 (tools)	GitHub 네이티브 도구
셀프 호스팅 대안 비용 참조	월 $12,000 → 월 $5 (1/160배로 인용)	—	—	—
독립 벤치마크 점수	oh-my-agent v2 세트에 포함 (80/100)	포함	포함	정성적으로 논의됨

각 셀은 2026년 5월 8일에서 5월 20일 사이에 발표된 최소 하나 이상의 엔지니어링 보고서를 통합합니다. 가격 행의 수치는 인용된 프론티어 티어의 공시 가격입니다. 실제 CLI 과금은 사용되는 플랜과 라우팅 (routing) 계층에 따라 달라집니다.

이 비교가 구성된 방식: 시작 세트는 nextfuture.io.vn 기사 피드였으며, 네 가지 CLI 중 최소 하나와 측정 키워드 (벤치마크 (benchmark), 지연 시간 (latency), 가격 (price), 처리량 (throughput), 정확도 (accuracy) 또는 실패 모드 (failure mode))를 언급하는 포스트로 필터링되었습니다.

여덟 개의 소스가 선별되었습니다: 두 개는 기능 매트릭스 (feature matrix)를 통해 터미널 CLI를 다루고, 세 개는 특정 도구를 심층적으로 다루며, 두 개는 CLI가 상속받는 모델 가격 변동을 다루고, 한 개는 셀프 호스팅 (self-host) 대안을 다룹니다. 포함 기준: 2026년 5월 8일~20일 사이에 게시되었으며, 최소 하나 이상의 구체적인 수치(100만 토큰당 가격, 벤치마크 점수, 요청량, 지연 시간 목표) 또는 1차 자료 기반의 기능 매트릭스를 포함함. 제외 기준: 벤더 마케팅 페이지, 독립적인 측정값이 없는 모델 출시 발표, 데모 영상, 단일 일화성 트윗, 그리고 새로운 측정값 없이 Anthropic, OpenAI 또는 Google의 콘텐츠를 재배포하는 포스트. 정규화: 토큰 가격은 입력 $/1M 및 출력 $/1M로 표기함. 셀프 호스팅 주장은 인용되지만 API 목록 가격과 혼합되지 않음 — 워크로드 정규화 조건 없이는 월 5달러짜리 VPS를 API 토큰과 비교할 수 없습니다. 여덟 개의 소스 모두 하단에 각 소스가 기여한 지표와 함께 나열되어 있습니다. 기능 매트릭스: 네 가지 CLI가 실제로 차이점을 보이는 지점. 가장 깔끔한 비교는 dev.to의 pardnchiu가 작성한 Agenvoy 매트릭스에서 확인할 수 있으며, 이는 세 가지 파운데이션 모델 (foundation-model) CLI를 두 개의 오픈 소스 경쟁 제품과 비교하여 행으로 나열합니다. 구매자에게 중요한 차이점은 언어(세 가지 모두 TypeScript임)나 아키텍처(세 가지 모두 세션 기반 CLI 프로세스임)가 아닙니다. 그것은 라이선스 모델 (licensing model), 기본 모델 라우팅 (default model routing), 그리고 에이전트 기술 생태계 (agent-skill ecosystem)입니다. Claude Code는 세 가지 파운데이션 CLI 중 유일한 독점 (proprietary) 항목입니다. Codex CLI와 Gemini CLI는 모두 Apache 2.0 라이선스로 배포되므로, 프롬프트 스캐폴딩 (prompt scaffolding), 도구 정의 (tool definitions), 루프 (loop)와 같은 노출 영역이 감사 가능하고 포크 (fork) 가능함을 의미합니다. 이러한 차이는 암호학적 포렌식 (cryptographic forensics) 포스트에서 나타납니다: 하네스 (harness)가 공개되어 있으면, 에이전트가 학습 데이터에 대해 rm -rf를 실행하기 전에 실제로 무엇을 보았는지 검증할 수 있습니다. Claude Code의 경우 JSONL 세션 로그가 유일한 결과물이며, 사용자의 기기를 신뢰하지 않는 제3자는 이를 독립적으로 검증할 수 없습니다. 2026년 5월 기준으로 네 가지 CLI 중 기본적으로 서명된 세션 로그 (signed session logs)를 제공하는 것은 없습니다.

Copilot CLI는 독자적인 사분면에 위치합니다. 이 네 가지 도구 중 토큰당 과금이 아닌 플랜 기반 가격 책정 (plan-priced)을 채택한 유일한 도구이며, 대규모 환경에서 신뢰할 수 있는 PR 분류 (PR-triage) 활용 사례를 가진 유일한 도구입니다. 한 개발자는 18개월 동안 40개 이상의 업스트림 조직 (upstream organizations)에서 이를 실행하고 있다고 보고했습니다. 이는 단순한 벤치마크가 아니라 존재 증명 (existence proof)이며, 나머지 세 가지 CLI에는 이에 상응하는 공개된 사례가 없습니다.

벤치마크와 비용: 실제로 존재하는 수치들
이번 달 기초 CLI (foundation CLIs)들에 대해 가장 많이 인용되는 벤치마크는 oh-my-agent v2의 80/100 점수입니다. 주의해서 읽어야 합니다: 80/100점은 해당 툴킷이 자체 작업 세트 (task suite)에서 기록한 점수이며, v2에서는 Cursor가 일류 벤더 (first-class vendor)로 격상되었고 9개의 새로운 기술 (skills)이 추가되었습니다. 이는 Claude Code, Codex CLI, Gemini CLI 간의 직접적인 대결이 아닙니다. 사용자가 연결한 모델이 무엇이든 상관없이 하나의 하네스 (harness)를 통해 실행되는 방식입니다. 이를 모델 리더보드 (model leaderboard)가 아니라, "기술 (skills) + 모델이 lockfile-mismatch 유형의 실패를 해결할 수 있는가"를 나타내는 대리 지표 (proxy)로 취급하십시오.

CLI가 /advisor 스타일의 라우터 (router)를 통해 개입하지 않는 한, CLI가 상속받게 되는 기반 모델 (underlying models)의 가격은 이번 달에 변동되었습니다. 5월 19일자 Token Ledger 보고에 따르면, NVIDIA Nemotron 3 Super의 completion 비용은 $0.45/1M (기존 $0.50에서 10% 인하)이며, Gemma 4 26B A4B는 1M prompt/completion당 $0.06/$0.33, gpt-oss-120b는 $0.039/$0.18를 기록했고, Mistral Nemo의 completion 비용은 하락 추세에 있습니다. Claude Opus와 GPT-5.5의 completion 비용은 gpt-oss-120b보다 대략 한 자릿수 (an order of magnitude) 높게 형성되어 있습니다. GPT-5.5와 Claude Opus 4.7의 비교는 이러한 격차를 확인해주지만, 재현 가능한 SWE-bench 작업 ID (task IDs)를 공개하지는 않습니다.

가장 공격적인 비용 주장으로는 $12,000의 Anthropic 청구서 이후, 월 $5짜리 DigitalOcean 드롭릿 (droplet)에서 Llama 3.2 + Ollama + Nginx를 배포하여 "Claude 비용의 1/160"이라고 주장하는 사례가 있습니다. 해당 게시물은 로드 밸런싱된 멀티 인스턴스 (multi-instance) 설정에서 100ms 미만의 지연 시간 (latency)으로 초당 50개 이상의 요청을 처리한다고 보고했습니다. 하지만 100ms 미만에서 작동하는 Llama 3.2 8B는 Opus 수준의 품질로 SWE-bench 작업을 수행하는 것이 아니며, 대체되고 있는 워크로드 (workload) 또한 다단계 코딩 에이전트 (multi-step coding agents)가 아닌 요약 (summarization) 작업입니다.

헤드라인 수치가 오해를 불러일으킬 때: 80/100 벤치마크는 마치 CLI들의 순위를 매기는 것처럼 인용되지만, 그렇지 않습니다. oh-my-agent v2는 모델 주변에 기술을 추가하는 하네스 (harness)입니다. 해당 하네스에서 점수를 기록한 동일한 Claude Sonnet 4.x 모델이라도 Codex CLI의 스캐폴딩 (scaffolding) 하에서는 다른 점수를 기록할 것이며, Gemini 3.5 Flash는 완전히 다른 도구 호출 (tool-call) 프로토콜을 사용합니다. "1/160 비용" 주장도 같은 형태를 띱니다. 이는 요약 (summarization) 작업을 수행하는 셀프 호스팅 (self-hosted) Llama 3.2 8B를 Anthropic의 Opus 기반 다단계 에이전트 (multi-step agent) 실행 비용과 비교한 것입니다. 두 헤드라인 모두 틀린 것은 아니지만, 서로 전이될 수 없습니다 (non-transferable). 위의 매트릭스를 엄격함이 낮은 하한선으로 간주하고, 조달 시에는 A/B 테스트를 수행하십시오.

빌더 프로필별 결론:
사이드 프로젝트를 출시하는 1인 개발자: Sonnet 티어의 Claude Code 또는 플랫 플랜 (flat plan)의 Copilot CLI. Copilot 플랫 플랜은 토큰당 비용 차이가 사이드 프로젝트 예산에 미치는 비용 불안세 (cost-anxiety tax)를 제거해 줍니다.
예산 압박이 있는 5~20인 규모의 팀: Apache 2.0 라이선스 하의 Codex CLI와 라우터 (advisor 스타일 또는 AI 게이트웨이 레이어)를 조합하여, 일상적인 작업은 1M 토큰당 $0.039/$0.18인 gpt-oss-120b로 보내고, 더 어려운 작업에는 GPT-5.x를 예약하십시오. 에이전트가 파괴적인 행동을 할 때 하네스 (harness)를 감사 (audit)할 수 있으므로 오픈 라이선스가 중요합니다.
비용에 민감한 배치 워크로드 (batch workload): The Token Ledger가 보고한 $0.45/1M Nemotron 3 Super 및 $0.06/$0.33 Gemma 4 26B 티어를 살펴보고, 워크로드가 실제로 CLI 형태인지 아니면 Llama 3.2 + Ollama 기반의 셀프 호스팅이 지연 시간 (latency) 기준을 충족하는지 고려하십시오. 1/160배 주장은 작업이 요약 (summarization) 또는 분류 (classification)일 때만 유효합니다.
지연 시간에 민감한 사용자 대상 앱: 네 가지 CLI 중 적합한 것이 없습니다. 이들은 SDK가 아니라 세션 기반의 개발자 도구입니다. 100ms 미만의 응답을 위해서는 Llama-on-DigitalOcean 패턴이나 Gemini 3.5 Flash 엔드포인트를 따르십시오.
40개 이상의 리포지토리를 분류하는 오픈 소스 메인테이너: Copilot CLI가 해당 규모에서 공개된 존재 증명 (existence proof)을 가진 유일한 도구입니다. 나머지 세 가지는 그에 상응하는 보고서가 부족합니다.

검토된 출처: Claude Code · Codex CLI · Gemini CLI · OpenClaw · Hermes Agent vs Agenvoy — dev.to, 2026년 5월 19일, 기여 내용: 언어 / 라이선스 / 저자 / 아키텍처 매트릭스. oh-my-agent v2: 9가지 새로운 기술, 일급(First-Class) Cursor, 그리고 80/100 벤치마크 — dev.to, 2026년 5월 20일, 기여 내용: 80/100 툴킷 벤치마크, Cursor 일급 승격, 9가지 기술 목록. The Token Ledger – 2026-05-19 — dev.to, 2026년 5월 19일, 기여 내용: 모델별 가격 차이 ($0.45/1M Nemotron 3 Super, $0.06/$0.33 Gemma 4 26B A4B, $0.039/$0.18 gpt-oss-120b). PR 분류(triage) 코파일럿으로서의 GitHub Copilot CLI — dev.to, 2026년 5월 19일, 기여 내용: 40개 이상의 업스트림 조직, 18개월간의 단일 개발자 프로그램 범위. 월 5달러 DigitalOcean 드롭릿(droplet)에서 실행되는 Llama 3.2 + Ollama + Nginx — dev.to, 2026년 5월 20일, 기여 내용: 월 12,000달러 → 월 5달러 주장, 초당 50회 이상의 요청(req/s), 100ms 미만의 지연 시간(latency). AI 코딩 에이전트 세션을 위한 암호학적 포렌식 (Cryptographic Forensics) — dev.to, 2026년 5월 20일, 기여 내용: JSONL 세션 로그의 공백, 오픈 라이선스를 위한 하네스 투명성 (harness-transparency) 논거. GPT-5.5 vs Claude Opus 4.7: 가격, 속도 및 벤치마크 — dev.to, 2026년 5월 19일, 기여 내용: 프런티어 급 (frontier-tier) 가격대 및 정성적 속도 비교. Google의 Android CLI 출시로 에이전트 기반 앱 코딩이 업그레이드되다 — TechCrunch, 2026년 5월 19일, 기여 내용: Claude Code 및 Codex를 위한 Google Android CLI 통합 목표.

자주 묻는 질문 (FAQ)

이 벤치마크를 제가 직접 수행했나요?
아니요. 이 포스트는 2026년 5월 8일에서 5월 20일 사이에 발표된 8개의 보고서를 집계한 것입니다. TL;DR 표의 각 셀은 최소 하나 이상의 독립적인 출처를 인용하며, 대부분의 셀은 두 개를 인용합니다. 종합(synthesis)은 저의 작업이며, 측정값은 타인의 것입니다.

직접 수행하지 않고 왜 집계하나요?
단일 벤치마크는 거짓말을 합니다 — 워크로드 불일치 (workload mismatch), 버전 드리프트 (version drift), 선별된 작업 세트 (cherry-picked task set), 벤더의 프레임 구성 (vendor framing). 80/100점의 oh-my-agent 점수와 1/160× Llama 주장은 모두 일반화될 수 없는 실제 수치입니다. 8개의 보고서를 집계함으로써 중앙값의 동작, 편차, 그리고 각 수치가 더 이상 유효하지 않게 되는 경계 조건 (boundary conditions)을 드러낼 수 있습니다.

코딩 에이전트(coding agents)가 실제 환경에서 어떻게 실패하는지에 대한 더 자세한 내용은 9 Ways AI Coding Agents Break in Production (2026년 5월)을 참조하십시오. 이 정보는 얼마나 최신인가요? 언급된 8개의 소스 모두 2026년 5월 8일에서 5월 20일 사이에 발행되었습니다. 인용된 도구 버전: Claude Code (Sonnet 4.x / Opus 4.7 routing), Codex CLI (GPT-5.x), Gemini CLI (Gemini 2.x → 3.5 Flash), Copilot CLI (2026년 5월 계획). 2026년 9월이 되면 정보가 노후화될 것으로 예상됩니다. 2026년 5월의 Cursor-to-Claude-Code 계산법이 이미 보여주었듯이, 모델 가격 책정은 매달 변동됩니다. 이 기사는 원래 NextFuture에 게시되었습니다. 더 많은 풀스택(fullstack) 및 AI 엔지니어링 콘텐츠를 보려면 저희를 팔로우하세요.

터미널 코딩 CLI 생태계: 2026년 5월 8일 보고서 통합

요약

핵심 포인트

댓글