본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 28. 21:50

Claude Code CLI 리뷰: 느낌이 다른 터미널 우선 AI 코딩

요약

Claude Code CLI의 성능과 실사용 경험을 분석한 리뷰입니다. 계획, 실행, 검증, 보고의 4단계 에이전트 루프를 통해 높은 자율성과 코드 검증 능력을 보여주며, 특히 Opus 4.7 모델의 자기 검증 단계가 타 도구 대비 뛰어난 성능을 제공합니다.

핵심 포인트

  • 계획-실행-검증-보고로 이어지는 강력한 에이전트 루프 보유
  • 자기 검증 단계를 통해 타 도구 대비 높은 테스트 통과율 기록
  • 데이터베이스 마이그레이션 등 복잡한 작업을 자율적으로 수행 가능
  • 높은 성능에도 불구하고 비용 및 모델 종속성 문제가 존재함

당신이 기능을 설명하면, 그것은 코드베이스를 읽고, 계획을 세우고, 편집하고, 테스트하고, 커밋합니다. 이 모든 것이 당신의 터미널에서 이루어집니다.

저는 2026년 1월 12일에 npm install -g @anthropic-ai/claude-code를 통해 Claude Code를 설치했습니다. 이후 8주 동안 11개의 프로젝트에 걸쳐 847회의 에이전트 (Agent) 세션을 실행했습니다. 프로젝트 구성은 TypeScript 6개 (Next.js, NestJS, 그리고 Vue 3 모노레포), Python 3개 (Django, FastAPI, 그리고 데이터 파이프라인), 그리고 혼합 언어 프로젝트 2개였습니다. 저는 모든 세션의 토큰 (Token) 소비량을 추적했고, 성공한 다중 파일 편집과 실패한 편집 횟수를 집계했으며, 에이전트가 저의 개입 없이 얼마나 자주 작업을 완료하는지 측정했습니다. 총 API 비용은 243달러였습니다. 이는 주당 30.38달러, 실제 코딩을 하는 날 기준으로 하루 약 4.34달러입니다.

솔직한 요약은 다음과 같습니다: Claude Code는 제가 사용해 본 자율 코딩 에이전트 (Autonomous coding agent) 중 가장 유능하며, 다른 도구들과는 비교조차 되지 않습니다. 하지만 가격 책정, 터미널 전용 인터페이스, 그리고 Anthropic의 모델 종속성 (Model lock-in) 때문에, 기능 자체를 좋아할 만한 상당수의 개발자들에게는 잘못된 선택이 될 수 있습니다.

실제로 작동하는 에이전트 루프 (Agentic Loop)

이제 모든 AI 코딩 도구들이 스스로를 "에이전트 방식 (Agentic)"이라고 주장합니다. 대부분은 "도구를 한 번 호출하고 멈출 수 있다"는 의미로 사용합니다. Claude Code의 에이전트 루프 (Agentic loop)는 계획 (Plan), 실행 (Execute), 검증 (Verify), 보고 (Report)라는 네 가지 실제 단계를 가집니다. 2026년 4월 Opus 4.7과 함께 추가된 검증 (Verify) 단계가 바로 코드를 생성하고 끝내버리는 다른 도구들과 Claude Code를 구분 짓는 지점입니다.

저는 이를 직접 테스트했습니다. 3개의 Python 프로젝트에 걸쳐 동일한 12개의 다중 파일 리팩토링 (Refactoring) 작업을 Cursor의 Composer 에이전트와 Claude Code에 각각 한 번씩 맡겼습니다. Claude Code의 결과물은 12개 작업 중 9개(75%)에서 첫 번째 시도에 프로젝트 테스트 스위트 (Test suite)를 통과했습니다. Cursor Composer는 12개 중 6개(50%)를 통과했습니다. 이 차이는 전적으로 자기 검증 (Self-verification) 단계에서 발생했습니다. Claude Code는 제가 요청하지 않아도 코드를 생성하고, 테스트를 실행하고, 실패를 확인하고, 에러를 읽고, 코드를 수정하고, 다시 실행했습니다.

승인 프롬프트를 건너뛰는 모드인 자동 모드 (auto-mode)로 데이터베이스 마이그레이션 (database migration)을 실행했을 때, Claude Code는 약 4분 동안 23단계의 자율적인 단계를 완료했습니다. 스키마 (schema) 파일을 읽고, 마이그레이션을 생성하고, 테스트 데이터베이스에서 실행하고, 외래 키 제약 조건 위반 (foreign key constraint violation)을 포착하고, 마이그레이션 순서를 조정하고, 다시 실행하고, 14개의 테이블이 모두 정확한지 확인한 후 커밋 (commit)까지 마쳤습니다. 저는 키보드에 손도 대지 않았습니다.

Opus 4.7에서 새롭게 도입되어 현재 기본값으로 설정된 xhigh 노력 수준 (xhigh effort level)은 적절한 균형을 보여줍니다. High-effort Opus 4.6은 정확하지만 표면적인 답변을 제공했습니다. 반면 xhigh Opus 4.7은 더 깊은 추론 (reasoning)을 생성합니다. 이는 제가 코드 리뷰 (code review)에서 놓쳤던 NestJS 모듈 그래프 (module graph) 내의 순환 참조 (circular dependency)를 완전히 다른 작업의 부수 효과로 포착해냈습니다. Anthropic의 벤치마크에 따르면 Opus 4.7은 SWE-bench Verified에서 Opus 4.6의 80.8%보다 향상된 87.6%를 기록했습니다. 제 경험상, 이 6.8%의 향상은 에이전트 (agent) 세션 3~4회당 수동 수정 횟수가 대략 한 번 정도 줄어드는 결과로 이어집니다.

터미널 우선 AI의 실제 비용

Claude Code의 비용은 그 어떤 가격표가 제시하는 것보다 더 많이 들 수도 있고, 헤드라인에 적힌 숫자보다 적게 들 수도 있습니다. 847번의 세션을 통해 확인한 현실은 다음과 같습니다.

Pro 플랜은 월 $20이며 사실상 체험판에 가깝습니다. 저는 첫날 2~3시간의 활발한 사용 후 바로 속도 제한 (rate limits)에 걸렸습니다. 세션당 약 44K 토큰 (token) 제한이 있다는 것은 상당한 규모의 리팩터링 (refactoring) 세션이 작업 도중에 종료됨을 의미합니다. 만약 실제 개발 업무를 수행하고 있다면, Pro는 프로덕션용 플랜이 아닙니다. 그것은 데모 (demo)입니다.

월 $100인 Max 플랜이 매일 전문적인 용도로 사용하기 위한 현실적인 최소 기준입니다. Anthropic의 자체 데이터에 따르면 Claude Code의 평균 사용자는 개발자당 하루 약 $6를 지출하며, 90%가 하루 $12 미만을 유지합니다. 제 수치도 이와 유사합니다. 평균적으로 하루 $4.34를 지출했으며, 집중적인 리팩터링을 수행한 날의 최대치는 $11.20였습니다.

월 $200인 Max 20x 플랜은 모든 실질적인 속도 제한 (Rate limits)을 제거합니다. 제가 대화해 본 한 개발자는 8개월 동안 100억 개의 토큰을 추적했으며, Max 플랜으로 $800를 지불하는 동안 그에 상응하는 API 비용은 약 $15,000라고 계산했습니다. 헤비 유저라면 93%의 비용을 절감하는 셈입니다. 하지만 이 계산은 매일 4~6시간 동안 Claude Code 세션을 진행할 때만 유효합니다. 대부분의 개발자에게는 월 $100인 Max 플랜이 가장 적절한 선택지 (Sweet spot)입니다.

순수 API 가격 책정은 다른 이야기를 들려줍니다. Claude Sonnet 4는 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $15의 비용이 듭니다. Claude Opus 4는 $15/$75입니다. Sonnet을 사용하는 일반적인 코딩 하루의 API 비용은 $24 정도입니다. Opus를 사용하면 $1540입니다. 일주일에 몇 번씩 작은 기능을 구현하는 라이트 유저라면, API 과금 방식이 어떤 구독 서비스보다 저렴합니다. 만약 에이전트 팀 (여러 개의 Claude Code 인스턴스가 병렬로 작동하며 단일 세션보다 약 7배 많은 토큰을 소비하는 환경)을 운영한다면, 구독 플랜이 필수적이 됩니다.

Claude Code가 할 수 없는 것

마케팅에서는 언급하지 않기 때문에, 세 가지 한계점은 솔직하게 밝힐 필요가 있습니다.

첫째, Anthropic의 모델에 종속되어 있습니다 (Locked to Anthropic's models). Claude Code로는 GPT-5, Gemini, DeepSeek 또는 그 어떤 오픈 웨이트 (Open-weight) 모델도 사용할 수 없습니다. 만약 Anthropic에 서비스 중단 (Outage)이 발생하면 (2026년 3월 8일에 4시간 동안 발생한 적이 있습니다), Claude Code는 작동하지 않습니다. Anthropic이 가격을 인상하면, 새로운 요금을 지불하거나 도구 사용을 중단해야 합니다. 만약 Claude가 GPT-5가 더 잘 처리하는 특정 코딩 작업에서 뒤처지더라도, 당신에게는 대안이 없습니다. 이는 모델을 자유롭게 교체할 수 있는 Aider나 Cursor와 같은 도구들과는 정반대되는 특징입니다.

둘째, 의미 있는 IDE 통합이 없습니다. Claude Code에는 VS Code 확장 프로그램과 JetBrains 플러그인이 있지만, 이들은 본질적으로 에디터에 내장된 터미널 패널에 불과합니다. 수락/거절(accept/reject) 버튼이 포함된 인라인 디프(inline diffs)를 제공하지 않습니다. 타이핑하는 동안 에디터에 나타나는 구문 강조(syntax-highlighted) 코드 제안도 제공하지 않습니다. 당신은 터미널에서 디프(diff) 출력 결과를 읽거나, 터미널의 코드를 에디터로 복사해야 합니다. 이는 터미널에서 생활하는 개발자들에게는 유용할 수 있습니다. 하지만 시각적인 편집 경험을 원하는 개발자들에게는 결함이 있는 것처럼 느껴집니다. 제가 Claude Code를 Cursor에 익숙한 사람과 함께 사용했을 때, 그들의 첫 반응은 항상 동일했습니다: "잠깐, 이 평문(plain text) 디프를 직접 읽어야 한다고요?"

셋째, 규모가 커질수록 비용을 예측하기 어렵습니다. 제가 하루에 12번의 에이전트 세션을 실행했던 프로젝트(금요일 마감 직전 상황)에서, API 비용으로 11.20달러를 소모했습니다. 그다음 월요일에는 3번의 세션에 1.80달러가 들었습니다. 이러한 변동성은 전적으로 에이전트가 얼마나 많이 루프(loop)를 도느냐에서 발생합니다. 각 도구 호출(tool call), 각 테스트 실행, 각 자기 수정(self-correction) 사이클마다 토큰이 소모됩니다. 작업 예산(task budgets, 에이전트에게 권고 토큰 상한선을 부여하는 새로운 Opus 4.7 기능)을 설정할 수는 있지만, 이는 소프트 리밋(soft limits)입니다. 에이전트는 이를 초과할 수 있습니다. 팀 환경에서 Claude Code를 위한 예산을 세운다는 것은 비용이 매일 4~6배까지 차이 날 수 있음을 수용한다는 의미입니다.

Claude Code를 사용해야 하는 대상

터미널에서 복잡한 다중 파일 리팩터링 (multi-file refactoring)을 수행한다면 Claude Code를 사용하세요. 당신의 워크플로우에 git, npm, pytest, docker가 포함되어 있고 터미널에서 디프(diff)를 읽는 것이 편안하다면, Claude Code는 현재 사용 가능한 최고의 자율 에이전트(autonomous agent)입니다. '검증 후 보고(verify-then-report)' 루프는 제가 테스트한 다른 모든 도구가 놓치는 오류를 잡아냅니다.

설명부터 커밋(commit)까지 AI가 기능 전체를 처리하기를 원한다면 Claude Code를 사용하세요. 코드 조각(snippets)이나 자동 완성(autocomplete)이 아닙니다. 8~15개의 파일에 걸쳐 있고, 테스트를 포함하며, 대부분의 경우 첫 시도에 컴파일되는 완전한 기능(full features)을 의미합니다. Claude Code는 제가 지켜보지 않고도 작업이 완료될 것이라고 일관되게 신뢰할 수 있는 유일한 도구입니다.

IDE 통합을 원한다면 Claude Code를 건너뛰세요. Cursor나 Windsurf는 Claude Code가 의도적으로 제공하지 않는 시각적 편집 경험 (visual editing experience)을 제공합니다. 두 가지를 모두 사용할 수는 있습니다. 대규모 리팩토링 (refactoring) 세션에는 Claude Code를, 일상적인 인라인 코딩 (inline coding)에는 Cursor를 사용하는 식입니다. 하지만 인터페이스 간의 정신적 컨텍스트 스위칭 (mental context switch)은 실질적인 마찰 (friction)로 다가옵니다.

벤더 종속 (vendor lock-in)을 견딜 수 없다면 Claude Code를 건너뛰세요. 만약 Anthropic이 가격을 인상하거나, 모델을 지원 중단 (deprecate)하거나, 서비스 장애 (outage)가 발생하면 당신의 워크플로우는 중단됩니다. Aider는 더 수동적인 설정 과정이라는 대가를 치르는 대신, 100개 이상의 모델 옵션과 종속성 제로 (zero lock-in)를 제공합니다.

결론 (The Bottom Line)

Claude Code는 IDE가 아닙니다. 자동 완성 (autocomplete)도 아닙니다. 그것은 당신의 터미널에 상주하는 자율적인 소프트웨어 엔지니어 (autonomous software engineer)이며, 현재 이용 가능한 도구 중 가장 뛰어납니다. 847번의 세션(session)을 거친 후, 저는 이전에는 2~3시간이 걸렸을 다중 파일 리팩토링 (multi-file refactors) 작업을 이 도구에 믿고 맡깁니다. 다만, 아키텍처 결정 (architectural decisions)은 믿지 않습니다 (당신의 계획이 틀렸을 때 반박하지 않기 때문입니다). 또한, 빠른 인라인 편집 (quick inline edits)에는 사용하지 않습니다 (그 용도로 쓰기에는 너무 느립니다).

매일 사용하기 위한 실제 입장료는 월 100달러의 Max 플랜입니다. 월 20달러의 Pro 플랜은 미화된 체험판에 불과합니다. 코딩을 직업으로 삼고 터미널에서 작업한다면, 월 100달러를 예산으로 잡고 실제 프로젝트에서 일주일 동안 테스트해 보십시오. 만약 시각적 에디터 (visual editor)를 선호하거나 모델의 유연성을 원한다면, Claude Code는 당신을 좌절시킬 것입니다. 이것이 솔직한 의견입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0