2026년의 에이전틱 코딩 (Agentic Coding): Claude Code vs Codex CLI vs Gemini CLI vs Cursor Agent

요약 (TL;DR)

에이전틱 코딩 (Agentic coding)은 네 가지 전문화된 도구로 파편화되었습니다. Claude Code는 인간의 감독 하에 고품질의 페어 프로그래밍 (pair programming)을 수행하는 데 탁월합니다. Codex CLI는 Goal 모드를 통해 Terminal-Bench 2.0에서 82.7%에 도달하며, 인간의 개입 없는 수 시간 단위의 작업을 지배합니다. Gemini CLI는 2026년 6월 18일에 Antigravity CLI로 전환됩니다. Cursor Agent는 브라우저/데스크톱 기능과 8방향 병렬성 (eight-way parallelism)을 갖춘 클라우드 VM 기반의 백그라운드 에이전트를 독보적으로 제공합니다.

근본적인 변화: 이제 에이전트들은 터미널 (terminals) 너머에서 작동합니다. Codex는 몇 시간 동안 무인으로 실행되고, Cursor 에이전트는 클라우드 VM에서 브라우저를 클릭하며, Gemini는 완전한 데스크톱 플랫폼으로 통합됩니다. 프로덕션 전략은 하나의 도구를 선택하는 것이 아니라, 통합 API 게이트웨이를 통해 작업 유형별로 이 세 가지를 모두 조합하는 것입니다.

2026년 에이전틱 코딩 CLI에 일어난 변화

에이전틱 코딩은 "모델이 함수를 작성한다"에서 "모델이 명세 (specification)부터 검증된 출력까지 다단계 작업을 소유한다"로 진화했습니다. 성숙 단계에 접어든 네 가지 CLI는 자율성 스펙트럼 (autonomy spectrum) 상에서 각기 다른 위치를 차지하고 있습니다:

**Claude Code (Anthropic)**는 인간과의 파트너십을 우선시하며, 개발자의 제어를 위해 승인 게이트 (approval gates)와 확장 훅 (extension hooks)을 갖추고 로컬에서 실행됩니다.
**Codex CLI (OpenAI)**는 자율성을 극대화합니다. Goal 모드는 개입 없이 수천 번의 순차적인 도구 호출 (tool calls)을 수행하는 것을 입증했습니다.
**Gemini CLI (Google)**는 Antigravity CLI로의 전환이 발표되기 전까지 1M-토큰 컨텍스트 (1M-token context)를 갖춘 중간 단계의 대화형 ReAct 루프를 제공했습니다.
**Cursor Agent (Cursor)**는 터미널을 완전히 버리고 데스크톱 및 브라우저 기능을 갖춘 클라우드 VM으로 전환하여, 최대 8개의 병렬 백그라운드 에이전트를 지원합니다.

이러한 카테고리 파편화는 질문의 변화를 반영합니다: "얼마나 많은 자율성을, 얼마나 오래 위임할 것이며, 실행은 어디에서 이루어져야 하는가?"

5분 의사결정 매트릭스 (The Five-Minute Decision Matrix)

CLI	자율성 모델 (Autonomy Model)	실행 환경 (Execution Environment)	주요 모델 (Primary Model)	핵심 강점 (Key Strength)	주요 과제 (Main Challenge)
Claude Code	승인 기반의 페어 프로그래머 (Approval-gated pair programmer)	로컬 터미널 (Local terminal)	Claude Opus 4.7 / Sonnet 4.6	Hooks, 하위 에이전트 (subagents), PostToolUse 출력 교체를 통한 기술 (Skills) (2026년 5월)	Pro 티어 구독 제한 (throttle)
...
빠른 가이드: 장인 정신(craftsmanship)을 위해서는 Claude Code; 지속성(endurance)을 위해서는 Codex CLI; 6월 18일 이전 무료 티어 탐색을 위해서는 Gemini CLI; 병렬성(parallelism)을 위해서는 Cursor Agent를 권장합니다.

Claude Code: 페어 프로그래머 모델 (The Pair-Programmer Model)

Claude Code의 철학은 개발자가 통제권을 유지하도록 합니다. 터미널에 상주하는 CLI는 로컬 파일 시스템(local filesystems)을 대상으로 작동하며, 파괴적인 변경을 수행하기 전에 승인을 요구하고, /context 및 /cost 조사(introspection) 명령어를 통해 상태를 노출합니다. 2026년 5월 기준으로 Claude Opus 4.7이 기본 모델로 설정되어 있으며(4.6에서 업그레이드됨), Sonnet 4.6이 더 낮은 비용으로 광범위한 워크로드를 처리합니다.

확장성 아키텍처 (Extensibility Architecture) (3개 계층)

**Hooks (훅)**는 생명주기 이벤트인 PreToolUse, PostToolUse, Stop, SubagentStop, SessionStart 시점에 셸 명령어를 실행합니다. 2026년 5월 업그레이드를 통해 PostToolUse 훅이 hookSpecificOutput.updatedToolOutput을 통해 모든 도구에 걸쳐 도구 출력(tool output)을 교체할 수 있게 되었으며, 이를 통해 "중단하기 전에 테스트 실행" 또는 "생성된 파일에 대한 편집 차단"과 같은 패턴을 강제할 수 있습니다.

**Subagents (하위 에이전트)**는 격리된 컨텍스트 창(context windows), 사용자 정의 프롬프트(custom prompts), 제한된 도구 권한을 가진 집중형 작업자(focused workers)를 생성합니다. 기본 에이전트가 계획(planning)을 담당하는 동안, 전문 하위 에이전트들은 코드 리뷰나 보안 스캐닝과 같은 개별적인 작업들을 관리합니다.

**Skills (기술)**은 재사용 가능한 전문 지식을 마크다운(markdown) 파일과 선택적인 스크립트로 패키징하며, 팀 전체에 배포되는 내부 라이브러리처럼 작동합니다.

이 설계는 자율성 철학을 반영합니다: 짧은 턴(short turns), 빈번한 승인, 세밀한 제어. 장시간의 무인 실행(unattended runs)은 이 아키텍처의 핵심 가정과 충돌합니다.

경제적 제약 (Economic constraint): 월 20달러의 Pro 플랜은 엄격한 상한선을 강제합니다. Max 5x ($100) 및 Max 20x ($200)는 한도를 높여주지만 완전히 없애지는 못합니다. 이는 Codex CLI가 작동하는 바로 그 지점인 "설정 후 방치 (set and forget)" 워크플로우에 직접적인 불이익으로 작용합니다.

Codex CLI: 자율성의 챔피언

Codex CLI는 분 단위가 아닌 시간 단위로 측정되는 작업을 목표로 합니다. 2026년 5월 변경 로그(changelog)는 다음을 확인해 줍니다: Goal mode가 Codex 앱, IDE 확장 프로그램 및 CLI 전반에 걸쳐 실험 단계에서 GA (General Availability, 정식 출시)로 전환되었습니다. OpenAI는 개입 없이 실제 소프트웨어 작업에서 1,000회 이상의 연속적인 도구 호출 (tool calls)을 시연했으며, GPT-5.5에서 기록한 Terminal-Bench 2.0 점수 82.7%는 이를 실증적으로 입증합니다.

원격 컴퓨터 사용 (2026년 5월 기능)은 자율성에 대한 베팅을 전형적으로 보여줍니다. Codex는 화면 잠금 후에도 Mac 데스크톱 앱을 작동시키며, Codex Mobile을 통한 원격 접속도 포함됩니다. 권한 부여는 시간 제한이 있고, 화면은 가려지며, 로컬 입력 시 다시 잠금 상태가 되지만, 그 철학은 명확합니다: 에이전트 (agents)는 지속적인 관찰을 필요로 하지 않습니다.

Codex CLI 0.125.0 버전은 codex exec --json에 추론 토큰 (reasoning-token) 사용량 보고 기능을 추가하여 관측성 (observability) 격차를 해소했습니다. 이제 토큰 수준의 보고와 OpenTelemetry 트레이스 (traces)를 통해 수 시간 단위의 세션 예산 책정 (session budgeting)이 프로덕션급 정확도를 달성합니다.

언급할 가치가 있는 트레이드오프 (Trade-offs)

첫 번째 패스 편집 (First-pass edits) 결과, 특히 정밀한 리팩토링 (refactors) 시 Claude에 비해 관용성 (idiomaticity)이 약간 낮게 나타납니다. 해결 방법은 GPT-5.5 사용이 늦어질 경우 ofox를 통해 GPT-5.4 Pro를 거치거나 GPT-5.3 Codex를 사용하는 것입니다.

Codex CLI는 OpenAI의 생태계를 반영합니다. 도구 호출 (tool-calling) 형식, 프롬프트 컨벤션 (prompt conventions), 그리고 트레이스 출력은 더 넓은 OpenAI 인프라를 반영합니다. Anthropic을 주로 사용하는 환경에서는 Claude Code가 더 네이티브하게 느껴질 것입니다.

Gemini CLI: 대화형 ReAct 루프 (6월 18일 마감 기한 포함)

Gemini CLI는 가장 단순한 설계를 구현합니다: 내장된 도구(Google Search grounding, shell, 파일 작업, web fetch)와 MCP 지원을 갖춘 추론 및 실행 (reason-and-act) 루프입니다. 1M-토큰 컨텍스트 윈도우 (context window)는 터미널에서 유일하게 접근 가능했으며, 무료 티어(개인 계정 기준 분당 60회 요청, 일일 1,000회 요청)는 마찰 없는 에이전틱 탐색을 위해 타의 추종을 불허했습니다.

2026년 6월 18일 전환

Google은 2026년 5월 12일에 Gemini CLI 및 Gemini Code Assist IDE 확장 프로그램이 2026년 6월 18일에 Google AI Pro/Ultra 및 무료 Gemini Code Assist 서비스를 중단한다고 발표했습니다. 통합 대상은 Google Antigravity로, 이는 서버 측 인프라와 터미널 대응물인 Antigravity CLI를 특징으로 하는 에이전트 우선 (agent-first) 플랫폼입니다.

구체적인 영향:

개인 무료 티어 사용자는 6월 18일까지 Antigravity CLI로 마이그레이션하며, 무료 티어 혜택은 그대로 유지됩니다.
커스텀 API 키를 사용하는 셀프 호스팅 (self-hosted) 사용자는 오픈 소스 커뮤니티 포크 (forks)를 통해 계속 사용할 수 있지만, 기업 권장 사항은 Antigravity로 전환됩니다.

이는 에이전틱 코딩 (agentic-coding)의 폐기가 아닌 플랫폼 재편 (re-platforming)을 의미합니다. Gemini 3.1 Pro 및 Gemini 3.1 Flash는 ofox 및 기타 애그리게이터 (aggregators)에서 계속 사용할 수 있으며, 배포 채널만 이동하는 것입니다.

Gemini CLI가 여전히 우세한 경우 (6월 18일까지): 무료 티어 탐색, 넉넉한 컨텍스트를 활용한 MCP 서버 프로토타이핑, 유료 구독 없는 패턴 테스트.

Cursor Agent: 플릿 모델 (The Fleet Model)

Cursor는 터미널 우선 아키텍처를 완전히 거부했습니다. 시작부터 에디터 중심적이었던 Cursor는 2026년에 전용 데스크톱과 브라우저를 갖춘 클라우드 VM으로 에이전트를 밀어 넣었습니다.

백그라운드 에이전트 아키텍처 (Background Agents Architecture)

Cursor는 리포지토리(Repository)를 클라우드 VM으로 복제하며, 그곳에서 에이전트들은 전체 데스크톱 및 브라우저 액세스 권한을 가진 전용 브랜치(Branch)에서 작업을 수행합니다. 사용자가 로컬 편집을 계속하는 동안 결과물은 풀 리퀘스트 (Pull Request, PR) 형태로 나타납니다. 2026년 2월 업그레이드를 통해 에이전트당 데스크톱 인프라가 추가되었습니다. 즉, 각 백그라운드 에이전트 (Background Agent)는 자신만의 개발 환경, 브라우저, 그리고 UI 상호작용 능력을 부여받습니다. 에이전트는 브라우저를 실행하고, localhost를 탐색하며, UI 요소를 클릭하고, PR을 생성하기 전에 코드 변경 사항을 시각적으로 검증할 수 있습니다.

팬아웃 (Fan-out)은 8개의 병렬 에이전트까지 확장되며, 이는 네 가지 CLI 중 유일한 기능입니다. 서비스 전반에 걸친 의존성 업그레이드, 테스트 백필 (Test backfills), 또는 여러 리포지토리에 걸친 표준화된 변경 사항 적용 등은 다른 곳에서는 불가능한 진정한 병렬성을 실현합니다.

비용 구조: 각 백그라운드 에이전트는 Cursor 크레딧을 소비하며, 병렬 처리는 실제적인 경제적 트레이드오프 (Trade-offs)를 수반합니다.

포그라운드 기능 (Foreground Capabilities)

Cursor의 퍼스트 파티 에이전트 모델인 Composer 2는 프런티어 (Frontier) 경쟁 모델 대비 약 4배의 속도를 주장하며, 일반적인 에이전트 턴 (Agent turns)은 30초 이내에 완료됩니다. 오토 모드 (Auto mode)는 크레딧이 소모되지 않지만, 프리미엄 모델 핀 (Claude Sonnet 4.6, GPT-5.5)은 크레딧을 소비합니다. 월 $20의 Pro 플랜은 약 $20의 월간 크레딧과 무제한 탭 완성 (Tab completions)으로 전환됩니다.

Cursor Agent가 우위를 점하는 경우: 에디터 네이티브 (Editor-native) 워크플로우, 팬아웃의 이점을 얻을 수 있는 대량의 반복 작업 (의존성 업그레이드, 테스트 백필, 대량 찾기 및 바꾸기), 또는 시각적 UI 검증이 필요한 시나리오.

유스케이스 매트릭스 (The Use-Case Matrix)

작업	최적의 기본 도구	대체 도구	근거
감독 하의 고품질 리팩토링	Claude Code (Opus 4.7)	Cursor Agent	승인 기반 실행, 우수한 관용적 (Idiomatic) 출력
...

하나의 API 키로 네 가지 도구를 모두 설정하는 방법

잘 논의되지 않는 현실은 다음과 같습니다: 네 개의 결제 대시보드가 필요하지 않습니다. 각 CLI는 커스텀 엔드포인트 (Custom endpoints)를 허용합니다. ofox와 같은 애그리게이터 (Aggregators)는 Anthropic, OpenAI, Google 모델을 호환 가능한 API를 통해 노출합니다.

Anthropic 호환 엔드포인트를 사용하는 Claude Code

export ANTHROPIC_BASE_URL="https://api.ofox.ai/anthropic"
export ANTHROPIC_API_KEY="sk-ofox-..."
claude

OpenAI 호환 엔드포인트를 사용하는 Codex CLI

export OPENAI_BASE_URL="https://api.ofox.ai/v1"
export OPENAI_API_KEY="sk-ofox-..."
codex

Vertex 호환 엔드포인트를 사용하는 Gemini CLI

export GOOGLE_GENAI_USE_VERTEXAI=false
export GEMINI_API_KEY="sk-ofox-..."
export GEMINI_API_BASE_URL="https://api.ofox.ai/gemini"
...

Cursor Agent 사용자 정의 모델 (Custom Models)

설정(Settings) → 모델(Models) → 사용자 정의 모델 추가(Add Custom Model) 기능은 모든 OpenAI 호환 기본 URL과 API 키를 받아들입니다. 이 설정을 https://api.ofox.ai/v1로 지정하면, Cursor가 이미 이해하고 있는 단일 인증 방식을 통해 Claude, GPT, Gemini 모두를 호출할 수 있습니다.

이 패턴을 사용하면 네 가지 에이전트 모두 동일한 모델 카탈로그에 대해 작동하며, 작업 클래스별로 전환하면서 소비된 토큰에 대해서만 비용을 지불하게 됩니다.

네 가지 모두 공통적인 격차 (2026년 5월)

리포지토리 간 인식 (Cross-Repo Awareness)

네 에이전트 모두 단일 리포지토리 내에서 작동합니다. 모노레포(monorepos)와 세 개의 형제 리포지토리를 넘나드는 조정 작업은 개발자의 개입을 필요로 합니다.

비용 예측 가능성 (Cost Predictability)

/cost 명령어와 Codex 토큰 보고서가 있음에도 불구하고, 다시간에 걸친 목표 모드(Goal-mode) 지출액을 완료 시점까지 예측하는 것은 여전히 추측에 불과합니다.

세션 간 지속적인 메모리 (Persistent Memory Across Sessions)

Subagents와 Skills는 지식 재사용을 가능하게 하지만, 진정한 세션 간의 메모리는 개발자가 프롬프트 스캐폴딩(prompt scaffolding)을 해줘야 합니다.

신뢰할 수 있는 테스트 주도 루프 (Reliable Test-Driven Loops)

작성-테스트-코드-반복(Write-test-code-iterate) 방식은 새로운 프로젝트(greenfield projects)에는 효과적이지만, 불안정한 테스트나 장기적인 CI 주기에서는 성능이 저하됩니다.

UI를 넘어서는 검증 (Verification Beyond UI)

Cursor의 브라우저가 탑재된 에이전트는 UI 변경 사항을 시각적으로 검증합니다. 하지만 데이터 파이프라인의 정확성이나 분산 시스템의 불변성(distributed-system invariants)은 여전히 개발자가 작성한 테스트에 의존합니다.

이러한 격차를 해소하려면, 에이전트 자체의 진화만을 기다리기보다는 아키텍처적 우회책(CI 측 검증, 영구적인 외부 메모리 저장소 등)을 마련하는 것이 더 자주 필요합니다.## 닫는 권장 사항 (Closing Recommendation)

자율성 축(autonomy axis)을 먼저 선택하고, 그다음 생태계 적합성을 고려하세요.

로컬에서 숙련된 페어 프로그래머 (Craftsman pair programmer) 역할: Opus 4.7을 탑재한 Claude Code; 더 넓은 범위의 워크로드에는 Sonnet 4.6 사용.
수 시간에 걸친 자율적 작업 (Walk-away autonomy): GPT-5.5를 탑재한 Codex CLI Goal 모드 (만약 GPT-5.5가 애그리게이터(aggregators)에서 지연될 경우 ofox를 통해 GPT-5.4 Pro 사용).
6월 18일 이전 무료 티어 탐색: Gemini CLI; 6월 중순까지 Antigravity CLI로 마이그레이션.
클라우드 VM 내 브라우저 인식 병렬 에이전트 (Browser-aware parallel agents): Cursor Background Agents, 최대 8개까지 병렬 실행.

프로덕션 구성 패턴 (The Production Composition Pattern)

2026년 말의 프로덕션 팀은 단 하나의 도구만을 선택하는 경우가 드뭅니다. 수렴하고 있는 패턴은 다음과 같습니다: 숙련도를 위해 로컬에서는 Claude Code를, 지속성을 위해 별도의 셸(shell)에서는 Codex CLI를, 그리고 팬아웃(fan-out)을 위해 클라우드에서는 Cursor Background Agents를 사용하며, 이 세 가지 모두를 통합된 빌링(billing) 및 모델 카탈로그 액세스를 위해 하나의 API 게이트웨이(API gateway)를 통해 라우팅하는 방식입니다.

가장 빠르게 제품을 출시하는 개발자들은 "어느 것이 최고인가"를 두고 논쟁하지 않습니다. 그들은 숙련도를 위해 Claude Code를, 지속성을 위해 Codex CLI를, 병렬성을 위해 Cursor Background Agents를 조합하며, 이 모든 것을 단일 API 키로 통합하여 사용합니다.

2026년의 에이전틱 코딩 (Agentic Coding): Claude Code vs Codex CLI vs Gemini CLI vs

요약

핵심 포인트

2026년의 에이전틱 코딩 (Agentic Coding): Claude Code vs Codex CLI vs Gemini CLI vs Cursor Agent

요약 (TL;DR)

2026년 에이전틱 코딩 CLI에 일어난 변화

5분 의사결정 매트릭스 (The Five-Minute Decision Matrix)

Claude Code: 페어 프로그래머 모델 (The Pair-Programmer Model)

확장성 아키텍처 (Extensibility Architecture) (3개 계층)

Codex CLI: 자율성의 챔피언

언급할 가치가 있는 트레이드오프 (Trade-offs)

Gemini CLI: 대화형 ReAct 루프 (6월 18일 마감 기한 포함)

2026년 6월 18일 전환

Cursor Agent: 플릿 모델 (The Fleet Model)

백그라운드 에이전트 아키텍처 (Background Agents Architecture)

포그라운드 기능 (Foreground Capabilities)

유스케이스 매트릭스 (The Use-Case Matrix)

하나의 API 키로 네 가지 도구를 모두 설정하는 방법

Anthropic 호환 엔드포인트를 사용하는 Claude Code

Anthropic 호환 엔드포인트를 사용하는 Claude Code

OpenAI 호환 엔드포인트를 사용하는 Codex CLI

Vertex 호환 엔드포인트를 사용하는 Gemini CLI

Cursor Agent 사용자 정의 모델 (Custom Models)

네 가지 모두 공통적인 격차 (2026년 5월)

리포지토리 간 인식 (Cross-Repo Awareness)

비용 예측 가능성 (Cost Predictability)

세션 간 지속적인 메모리 (Persistent Memory Across Sessions)

신뢰할 수 있는 테스트 주도 루프 (Reliable Test-Driven Loops)

UI를 넘어서는 검증 (Verification Beyond UI)

프로덕션 구성 패턴 (The Production Composition Pattern)

출처 및 버전 스탬프 (Sources and Version Stamps)

댓글