Meta Description: 이미 AI 보조 개발을 위해 Claude Code나 Codex를 사용하고 계신가요? 이 심층 분석에서는 Hermes 3와 OpenClaw가 여러분의 스택(Stack)에서 정확히 어떤 역할을 하는지, 그리고 Claude Code, Codex, Hermes, OpenClaw에 대한 질문이 왜 하나를 선택하는 문제가 아니라 각 도구가 어느 계층(Layer)에 위치하는지를 이해하는 문제인지 설명합니다.

I'm Using Claude Code / Codex — Should I Still Use Hermes or OpenClaw?

지금 모든 개발자가 던지는 질문
환경 이해하기: 네 가지 도구, 네 가지 역할
Claude Code & Codex: 동전의 양면
Hermes 3: 오픈 소스 브레인 (Open-Source Brain)
OpenClaw: 아무도 예상치 못한 에이전트 OS (Agent OS)
핵심적인 오해: 이들은 경쟁자가 아닙니다
언제 스택에 Hermes를 추가해야 할까요?
언제 스택에 OpenClaw를 추가해야 할까요?
하이브리드 아키텍처 (Hybrid Architecture): 이들이 모두 함께 작동하는 방식
비용 분석: 실제로 비용이 얼마나 들까요?
개인정보 보호 및 데이터 주권 (Privacy & Data Sovereignty)
조립된 여러분의 스택: Claude Code, Codex, Hermes, OpenClaw 결정하기

지금 모든 개발자가 던지는 질문 {#intro}

여러분은 이미 Claude Code나 Codex가 연결된 상태로 제품을 출시하고 있습니다. 그러다 갑자기 X(구 트위터)에서 Hermes 3와 OpenClaw라는 것에 대한 스레드가 폭발하고, 타임라인은 이것이 스택 혁명이라고 외치는 개발자들로 가득 찹니다. 여러분은 관심을 가져야 할까요, 아니면 이것이 단지 주의를 요하는 다음 AI 거품(Hype)의 물결일 뿐일까요?

혼란을 줄여줄 재정의를 해드리겠습니다. 경쟁자처럼 보이는 모든 것이 경쟁자는 아닙니다. Claude Code, Codex, Hermes, OpenClaw에 대한 질문은 4강 토너먼트식 탈락전이 아니라, 계층적 아키텍처(Layered Architecture)에 관한 질문입니다. 이 도구들은 각각 AI 스택의 근본적으로 다른 수준에서 작동하며, 이 차이를 이해하는 개발자들이 현재 진정으로 초인적인 느낌을 주는 워크플로우(Workflow)를 구축하고 있습니다.

이 포스트는 네 가지 도구 모두에 대한 완전한 기술적 분석을 제공합니다. 각 도구가 실제로 무엇을 하는지, 여러분의 스택(Stack) 중 어디에 위치하는지, 언제 진정으로 필요한지, 그리고 이들이 어떻게 단일 도구보다 더 강력한 무언가로 결합되는지를 다룹니다. 과장이나 특정 벤더에 대한 옹호 없이, 급변하는 환경에 대한 명확한 지도를 제시합니다.

환경의 이해: 네 가지 도구, 네 가지 역할 {#section-1}

[IMG:1] 사분면 다이어그램 — 가로축: "Managed (Cloud) ↔ Self-Hosted (Local)", 세로축: "Code-Specific ↔ General-Purpose Agent". Claude Code와 Codex는 왼쪽 상단에, Hermes는 오른쪽 하단에, OpenClaw는 오른쪽 하단에서 범용(General-Purpose) 영역까지 걸쳐 있습니다.

각 도구를 자세히 살펴보기 전에, 모든 것을 이해하기 쉽게 만들어주는 멘탈 모델(Mental Model)을 정립할 가치가 있습니다. 이 네 가지 도구는 AI 스택(AI Stack)의 동일한 계층에 존재하지 않으며, 바로 이 점 때문에 "어떤 것을 사용해야 할까요?"라는 질문 방식이 개발자들을 잘못된 길로 인도하게 됩니다.

이를 세 가지 뚜렷한 계층으로 생각하십시오:

계층 1 — 모델 (The Model): 이것은 가공되지 않은 지능, 즉 토큰을 처리하고 응답을 생성하는 거대 언어 모델(Large Language Model, LLM)입니다. Hermes 3가 여기에 속합니다. 여기에는 UI도, 워크플로우(Workflow)도, 메모리 시스템(Memory System)도 없습니다. 이는 병 속에 든 뇌와 같아서, 매우 유능하지만 자신을 둘러싼 애플리케이션이 무엇인지에 전적으로 의존합니다.

계층 2 — 코딩 에이전트 (The Coding Agent): Claude Code와 Codex가 작동하는 곳입니다. 이들은 각각 Claude Opus 4.8 또는 GPT-5.3-Codex와 같은 모델을 가져와서, 소프트웨어 엔지니어링에 유용하게 만드는 도구들—파일 읽기, 다중 파일 편집, 터미널 액세스, GitHub 통합, IDE 플러그인 등—로 모델을 감쌉니다. 이들은 특정 작업을 위해 구축된 전문화된 도구들입니다.

계층 3 — 오케스트레이션 OS (The Orchestration OS): OpenClaw가 여기에 위치합니다. 이것은 모델이 아닙니다. 코딩 에이전트도 아닙니다. 이것은 여러분의 전체 AI 기반 삶을 연결하는 계층입니다. 휴대폰의 Telegram 메시지로부터 여러분의 의도(Intent)를 수신하고, 이를 적절한 도구(Claude Code, Codex 또는 Hermes가 될 수 있음)로 라우팅하며, 결과를 추적하고, 여러분에게 선제적으로 보고합니다.

개발자들이 Claude Code를 사용할지 또는 OpenClaw를 사용할지 묻는다면, 이는 범주 오류(category error)를 범하는 것입니다. 마치 컴파일러(compiler)를 사용할지 빌드 시스템(build system)을 사용할지 묻는 것과 같습니다. 여러분에게는 둘 다 필요합니다. 계층(layers)을 혼동하는 것은 단순히 잘못된 도구 선택으로 이어지는 데 그치지 않고, 이미 비용을 지불한 도구들을 심각하게 저활용하게 만듭니다.

Claude Code & Codex: 동전의 양면 {#section-2}

[IMG:1] 분할 화면 비교 — 왼쪽: multi-file diff와 CLAUDE.md가 보이는 Claude Code 터미널; 오른쪽: 승인 모드(approval mode) 대화창과 GitHub PR이 작성 중인 VS Code 내의 Codex IDE.

경쟁 관계에 있는 연구소(labs)의 제품임에도 불구하고, Claude Code와 Codex는 대부분의 개발자가 인식하는 것보다 더 많은 DNA를 공유하고 있습니다. 둘 다 클라우드 기반의 관리형 코딩 에이전트(managed coding agents)입니다. 둘 다 CLI를 제공하며, VS Code, JetBrains, Cursor, Windsurf 전반에 걸친 IDE 통합 기능과 장시간 실행되는 작업을 위한 클라우드 기반 변형(variants)을 제공합니다. 둘 다 issue-to-PR 워크플로우를 위해 GitHub에 네이티브로 연결됩니다. 둘 다 모든 기능을 사용하려면 유료 구독이 필요합니다. 그리고 결정적으로, 둘 다 여러분의 코드를 원격 서버로 전송합니다. 이 점은 개인정보 보호(privacy) 섹션에서 다시 다루겠습니다.

하지만 그 차이점은 유의미하며, 의도적으로 선택할 가치가 있습니다.

Claude Code의 결정적인 강점은 모델의 깊이와 프로젝트 수준의 지능(project-level intelligence)입니다. 가장 어려운 추론(reasoning) 작업을 위해 1M 토큰 컨텍스트 윈도우(context window)를 갖추고 장기적인 에이전트 작업(long-horizon agentic work)을 위해 명시적으로 구축된 Claude Opus 4.8 모델을 사용하며, 더 빠르고 저렴한 워크로드에는 Claude Sonnet 4.6을 사용하여 이 범주의 도구 중 독보적인 컨텍스트 수용 능력을 갖추고 있습니다. CLAUDE.md 시스템은 특히 우아합니다. 프로젝트 루트에 사용자 정의 지침(custom instructions)이 담긴 마크다운(markdown) 파일을 넣어두면, 해당 저장소(repo) 내의 모든 Claude Code 세션이 반복 없이 여러분의 컨벤션(conventions), 아키텍처 노트, 스타일 선호도를 상속받습니다. 이 도구는 SOC 2 Type 2 및 ISO 27001 인증을 보유하고 있으며, 기본적으로 작업 디렉토리에 대해 쓰기 격리(write-isolated) 상태를 유지합니다. 또한 Anthropic Pro 플랜에 포함되어 있으며 가격은 월 $17(연간 결제) 또는 월 $20(매월 결제)입니다.

Codex의 차별점은 오픈 소스 CLI에서 시작됩니다. 이는 Apache 2.0 라이선스를 따르며, 감사(auditable)가 가능하고, 포크(forkable)할 수 있어 클라이언트 레이어에 대한 블랙박스(black-box) 우려가 없습니다. GPT-5.3-Codex 모델은 소프트웨어 엔지니어링 작업을 위해 특화되어 설계되었으며, SWE-bench 급 평가에서 강력한 벤치마크 성능을 보여줍니다. 승인 모드(approval mode) 시스템은 명시적이며 개발자 친화적입니다: 대화를 위한 채팅 모드(Chat mode), 감독된 자율성을 위한 에이전트 모드(Agent mode), 그리고 완전 자율 실행을 위한 에이전트 전체 액세스(Agent Full Access)가 있습니다. 클라우드 위임(Cloud delegation) 기능을 통해 노트북을 닫고 있는 동안에도 오래 걸리는 작업을 OpenAI의 인프라로 넘길 수 있습니다. 월 $20의 ChatGPT Plus에는 CLI, IDE 및 클라우드 전반에 걸친 Codex 액세스가 포함되어 있습니다.

	Claude Code	Codex
주요 모델	Claude Opus 4.8 / Sonnet 4.6	GPT-5.3-Codex / GPT-5.4 / GPT-5.4-mini
...

복잡한 아키텍처 문제에 대한 깊은 추론이 병목 구간이거나, 사용 가능한 가장 풍부한 컨텍스트 윈도우(context window)를 원하거나, 이미 Anthropic 생태계에 투자하고 있다면 Claude Code를 선택하십시오. 감사 가능한 오픈 소스 클라이언트를 원하거나, OpenAI 생태계에 있거나, 엄격하게 제어된 자율 실행을 위해 명시적인 승인 모드의 세밀함(granularity)을 중시한다면 Codex를 선택하십시오.

솔직하게 공유할 수 있는 한계점은 다음과 같습니다: 두 도구 모두 클라우드 연결이 필요하며, 두 도구 모두 코드를 기기 외부로 전송하고, 대규모 사용 시 토큰당 비용(per-token cost) 문제가 발생합니다. 만약 이 중 어느 하나라도 망설여진다면 — 계속 읽어주시기 바랍니다.

Hermes 3: 오픈 소스 브레인 {#section-3}

Hermes 3는 도구가 아닙니다. 에이전트도 아닙니다. 그것은 모델입니다 — Meta의 Llama 3.1 베이스를 기반으로 Nous Research가 구축하였으며, 완전한 오픈 웨이트(open weights)로 출시되었습니다. 이 차이점을 이해하는 것이 이것이 귀하의 스택(stack)에 포함되어야 하는지를 평가하는 데 있어 가장 중요한 전제 조건입니다.

기술적으로 Hermes 3는 ChatML 형식을 사용하며, OpenAI 호환 API 인터페이스를 노출하고, 8B, 70B, 405B 파라미터의 세 가지 크기로 제공됩니다. 이러한 OpenAI 호환성은 사소한 구현 세부 사항이 아닙니다. 이는 Hermes가 OpenAI 호환 /v1/chat/completions 엔드포인트를 수용하는 모든 도구에서 Claude나 GPT-4를 즉시 대체할 수 있는 드롭인 교체재 (drop-in replacement) 임을 의미합니다. 어떤 도구든 상관없습니다. OpenClaw를 포함해서 말이죠.

Hermes를 다른 Llama 3.1 파생 모델들과 차별화하는 점은 훈련의 초점입니다: 강력한 함수 호출 (function calling), 구조화된 JSON 출력, 그리고 에이전트적 작업 완료 (agentic task completion)입니다. Nous Research는 이를 "중립적으로 정렬됨 (neutrally aligned)"이라고 설명합니다. 즉, Claude나 GPT-4급 모델보다 거부 가드레일 (refusal guardrails)이 현저히 적다는 것을 의미합니다. 에이전트 파이프라인 (agentic pipelines)을 구축하는 개발자들에게 이는 매우 중요한 요소입니다. 유해한 행동을 허용하는 모델을 원해서가 아니라, 지나치게 열성적인 안전 거부 (safety refusals)가 일상적이지만 엣지 케이스 (edge-case)를 유발하는 콘텐츠를 마주할 때 자동화된 파이프라인을 실제로 망가뜨리는 주요 원인이 되기 때문입니다. 50단계의 에이전트 워크플로우 (agentic workflow)에서 중단이 단 한 번이라도 줄어드는 것은 실질적인 엔지니어링 측면의 승리입니다.

405B 변체는 표준 벤치마크에서 Llama 3.1 Instruct와 대등하거나 이를 능가하며 (arXiv:2408.11857에 의거), 많은 작업에서 프런티어 모델 (frontier models)들과 어깨를 나란히 합니다. 70B 변체는 대다수의 실제 소프트웨어 엔지니어링 작업을 능숙하게 처리합니다.

[IMG:1] 아키텍처 다이어그램: 개발자의 기기에서 Ollama를 통해 실행되는 Hermes 3가 로컬에서 OpenAI 호환 /v1/chat/completions 엔드포인트를 노출합니다. 모든 클라이언트 (OpenClaw, CI 파이프라인, 커스텀 스크립트)가 여기에 연결됩니다. 하드웨어 경계에 "데이터 외부 유출 없음 (No Data Egress)" 배지가 표시되어 있습니다.

배포 옵션 (Deployment Option)	최적의 용도 (Best For)	비용 (Cost)
Ollama (로컬)	개발, 개인정보 보호, 데이터 외부 유출 없는 실험	하드웨어 비용만 발생
...

즉시 사용 가능한 호환성(drop-in compatibility)이라는 강력한 장점이 있습니다. OpenClaw의 모델 백엔드를 Hermes 70B가 실행 중인 로컬 Ollama 서버로 지정하면, 네트워크 외부로 데이터가 전혀 나가지 않는 완전한 로컬 AI 시스템을 구축할 수 있습니다. 70B 모델은 4-bit 양자화 (quantization)를 통해 RTX 3090에서 원활하게 실행되며, 이 하드웨어는 이미 많은 전문 개발자들의 워크스테이션에 갖춰져 있습니다.

솔직한 한계점도 있습니다. 70B 이상의 로컬 모델을 원활하게 실행하려면 결코 작지 않은 GPU 인프라 설정이 필요하며, 매우 난도가 높은 추론 작업 — 즉, 깊은 의존성 체인을 가진 복잡한 다중 파일 리팩토링(multi-file refactors)이나 새로운 아키텍처 결정 — 에 있어서 Hermes는 여전히 최첨단 폐쇄형 모델(closed models)에 비해 유의미한 차이로 뒤처져 있습니다.

OpenClaw: 아무도 예상치 못한 에이전트 OS {#section-4}

OpenClaw (openclaw.ai)는 네 가지 도구 중 분류하기 가장 어려운 도구이며, 아마도 이 때문에 개발자들이 실제로 사용해 보았을 때 가장 큰 놀라움을 느끼는 것일 겁니다. 이것은 결코 LLM (대규모 언어 모델)이 아닙니다. 또한 결코 코딩 어시스턴트도 아닙니다. 이것은 에이전트 오케스트레이션 및 메모리 플랫폼 (agent orchestration and memory platform) 입니다. 즉, 당신이 있는 곳 어디에서나 존재하며 다른 모든 것을 조정하는 개인용 AI 운영체제 (operating system)입니다.

Peter Steinberger (@steipete)가 제작한 OpenClaw는 오픈 소스이며, Raspberry Pi부터 Mac Studio에 이르는 하드웨어에서 실행됩니다. 또한 WhatsApp, Telegram, Discord와 같이 당신이 이미 사용 중인 메시징 채널을 통해 작동합니다. 설계 단계부터 모델 불가지론적 (model-agnostic) 이므로, 추론 엔진으로 Claude, GPT-5 또는 Hermes를 사용하도록 구성할 수 있습니다. 당신의 컨텍스트(context), 메모리, 그리고 기술은 벤더의 클라우드가 아닌 당신의 기기에 모두 저장됩니다.

[IMG:1] 흐름도: 휴대폰의 개발자 → Telegram으로 "실패하는 인증 테스트 수정해줘" 메시지 전송 → 로컬 머신의 OpenClaw → 추론 엔진(Claude/GPT/Hermes)으로 라우팅 → Claude Code 하위 프로세스(subprocess) 실행 → 완료 여부 폴링(polling) → PR 링크와 "12/12 테스트 통과" 메시지가 포함된 Telegram 알림.

다음의 다섯 가지 역량이 OpenClaw를 이 분야의 다른 어떤 것과도 진정으로 다르게 만드는 요소입니다:

지속성 메모리 (Persistent memory) — 세션과 도구를 가로질러 유지됩니다. OpenClaw는 사용자의 선호도, 프로젝트 컨텍스트(context), 상시 지침(standing instructions)을 기억합니다. 사용자가 매번 새로운 대화창에 이를 다시 붙여넣을 필요가 없습니다.

자가 구축 가능한 기술 (Self-buildable skills) — OpenClaw는 대화를 통해 스스로 플러그인(plugin)을 작성합니다. 필요한 워크플로우(workflow)를 말하면, 스스로 기술을 코딩하고 설치합니다. 이는 비유가 아닙니다. 자율적인 자기 확장(autonomous self-extension)입니다.

선제적 하트비트 (Proactive heartbeats) — 예약된 작업, cron 트리거 브리핑, 에러 모니터링 훅(hooks) 등을 의미합니다. OpenClaw는 사용자가 무언가를 물어볼 때까지 기다리지 않습니다. 시스템을 감시하다가 중요한 순간에 중요한 정보를 표면화합니다.

멀티 채널 메시징 (Multi-channel messaging) — 사용자의 AI가 Telegram, WhatsApp 또는 Discord에서 동작합니다. 휴대폰으로 AI와 대화할 수 있습니다. 이는 단순한 UX(사용자 경험)의 편의성처럼 들리겠지만, 이는 사용자의 전체 AI 코딩 인프라가 이제 모바일 네이티브(mobile-native)가 되었음을 의미합니다.

멀티 에이전트 조정 (Multi-agent coordination) — OpenClaw는 코딩 작업을 위해 Claude Code와 Codex를 전문화된 하위 에이전트(subagents)로 파견한 뒤 결과를 취합합니다. OpenClaw가 현장 소장이라면, Claude Code와 Codex는 노동자입니다.

코딩 연결성은 이 아키텍처(architecture)가 실질적으로 체감되는 지점입니다. 실제 프로덕션 환경의 개발자들은 현재 다음과 같은 워크플로우를 실행하고 있습니다:

Claude Code / Codex를 사용 중인데, 여전히 Hermes나 OpenClaw를 사용해야 할까요?

요약

핵심 포인트