Qiita헤드라인2026. 05. 14. 10:16

Claude Code vs Cursor Agent vs Codex CLI: 동일한 리팩터링 태스크를 3개의 AI 에이전트에게 시켜보고 정량

요약

본 기사는 2025년 AI 코딩 에이전트 시장에서 Claude Code, Cursor Agent, Codex CLI 세 가지 도구를 동일한 리팩터링 태스크에 적용하여 속도, 정밀도, 비용 등을 정량적으로 비교 분석했습니다. 테스트는 Express.js 기반의 레거시 JavaScript 프로젝트를 TypeScript로 마이그레이션하는 것이었으며, 각 툴은 자율적인 파일 읽기/쓰기 및 명령어 실행 능력을 보여주었습니다. 분석 결과, 대규모 리팩터링과 설계 판단이 필요한 작업에는 Claude Code가 가장 우수했으며, 기존 IDE 워크플로우에 통합되는 경험을 중시한다면 Cursor Agent가 강점을 보였습니다. 반면, 단일 기능의 자동 수정이나 CI 연동 같은 배치 처리에는 Codex CLI가 적합한 것으로 나타났습니다.

핵심 포인트

대규모 리팩터링 및 설계 판단이 필요한 작업은 Claude Code가 가장 높은 성능을 보였다.
Cursor Agent는 IDE와의 실시간 통합 경험(Seamless Experience) 측면에서 강점을 가지지만, 파일 간 타입 일관성 유지에 일부 오류를 보였다.
Codex CLI는 단일 기능의 자동 수정이나 CI 연동 같은 배치 처리 작업에 적합하다.
AI 코딩 에이전트 선택은 '어느 것이 최강인가'가 아니라 '어떤 상황에서 무엇을 선택할 것인가'에 달려있다.
평가 지표로는 실행 속도, 코드 품질(타입 에러/테스트 커버리지), 토큰 비용, 사용자 개입 횟수 등이 사용되었다.

AI 코딩 에이전트가 난립하는 2025년 여름, 결국 무엇을 사용해야 하는가——동일한 리팩터링 (Refactoring) 태스크를 3개의 툴에 던져서, 속도·정밀도·비용·조작 스텝 수를 측정했습니다.

먼저 결론부터 적겠습니다.

대규모 리팩터링 (파일 횡단·설계 판단 포함) → Claude Code -
기존 프로젝트의 단계적 개선 (IDE 통합 중시) → Cursor Agent -
단일 기능의 자동 수정 (CI 연동·배치 처리) → Codex CLI

「어느 것이 최강인가」가 아니라 「어떤 상황에서 무엇을 선택할 것인가」가 중요합니다. 이하, 측정 데이터와 함께 자세히 해설합니다.

2025년에 들어서며, AI 코딩 에이전트는 「코드 보완 (Code Completion)」에서 「자율적인 태스크 실행」으로 페이즈가 바뀌었습니다. Claude Code, Cursor Agent (Background Agent), OpenAI Codex CLI는 모두 에이전트 모드를 갖추고 있으며, 파일 읽기/쓰기·명령어 실행·테스트 실행까지 자율적으로 수행할 수 있습니다.

하지만 동일한 조건으로 정량 비교를 한 기사는 거의 없습니다. 또한, 2025년 전반기에 보도된 Cursor의 취약점 문제를 받아, 툴 선정을 다시 하고 싶은 엔지니어도 많을 것입니다.

평가 축	측정 방법
실행 속도	프롬프트 투입부터 모든 파일 변경 완료까지의 경과 시간
코드 품질	TypeScript strict mode의 타입 에러 수, ESLint 경고 수, 테스트 커버리지 (Test Coverage)
토큰 비용	각 툴의 API 소비량으로부터 개산한 금액 (USD)
조작 스텝 수	사용자가 개입(승인·수정 지시)한 횟수

공정성을 담보하기 위해, 다음과 같은 조건으로 소규모 샘플 앱을 준비했습니다.

프레임워크: Express.js 4계열 (JavaScript) -
파일 수: 12개 파일 (루트 4, 미들웨어 3, 유틸리티 3, 설정 2) -
총 행 수: 약 850행 -
테스트: 제로 (테스트 파일 없음) -
기존 문제: 상당한 수준의 암묵적 타입 (Implicit Type), 콜백 지옥 (Callback Hell), 에러 핸들링 (Error Handling) 결여

이 Express.js 프로젝트를 TypeScript로 이행해 주세요.
구체적으로는 다음을 실시해 주세요:
1. 모든 .js 파일을 .ts로 변환하고, 적절한 타입 정의를 추가
...

macOS Sonoma 14.5 / Apple M3 Pro / 36GB RAM
Node.js 22.x / npm 10.x
각 툴은 2025년 6월 시점의 최신 버전

Claude Code는 터미널에서 claude 명령어를 기동하고, 프롬프트를 붙여넣는 것만으로 시작할 수 있습니다.

인상적이었던 점은, 처음에 프로젝트 전체를 읽어 들여 「이행 계획」을 제시해 왔다는 점입니다. 구체적으로는, 다음과 같은 순서로 진행하겠다고 선언했습니다.

tsconfig.json과 의존 패키지 세팅 -
유틸리티 계층 (의존성이 적은 곳)부터 순차적으로 TS화

미들웨어 계층의 TS화
루트 계층의 TS화 + async/await화
테스트 추가
전체 빌드 및 테스트 실행

이 「의존 관계의 하류부터 순차적으로」라는 접근 방식은, 인간 시니어 엔지니어가 취하는 전략과 같습니다.

지표	결과
실행 시간	8분 42초
사용자 개입 횟수	2회 (권한 확인만)
ts strict 에러	0개
ESLint 경고	3개 (unused import)
테스트 커버리지	87%
추정 비용	약 $0.85

파일 횡단의 정합성이 높다. 공통 타입 정의 파일 (types/index.ts)을 자발적으로 생성하여, 모든 파일에서 참조하는 설계로 만들어 왔다 -
에러 핸들링의 추가가 적절하다. Express의 에러 미들웨어 패턴을 올바르게 구현 - 테스트에서는 supertest를 선택하여, 실제 HTTP 요청을 모의하는 통합 테스트를 작성했다 - 도중에 빌드 에러가 발생했을 때, 스스로 에러를 읽고 수정하는 사이클을 3회 자율적으로 돌렸다

약점: 실행 중인 토큰 소비량을 보기 어렵다. 사후적으로 API 사용량을 확인할 필요가 있다.

Cursor의 Background Agent는 에디터 내의 채팅 패널에서 프롬프트를 입력합니다. IDE와 통합되어 있기 때문에, 변경 사항이 실시간으로 에디터에 반영된다는 점이 큰 장점입니다.

Background Agent는 원격 샌드박스(Sandbox)에서 태스크를 실행하고, 완료 후 브랜치(Branch)로서 PR을 생성하는 형식입니다.

지표	결과
실행 시간	12분 18초
사용자 개입 횟수	5회 (방침 확인 및 수정 지시)
ts strict 에러	2개
ESLint 경고	7개
테스트 커버리지 (Test Coverage)	76%
추정 비용	약 $0.60 (Pro 플랜 포함분 제외)

IDE와의 통합은 압도적인 경험. 차이점(Diff)을 그 자리에서 확인하며 진행할 수 있음 - 반면, 파일 간의 타입 일관성(Type Consistency)에서 2곳의 실수가 있었음. 구체적으로는 미들웨어의 Request 타입 확장이 일부 라우트(Route) 파일에 반영되지 않았음 - 테스트 커버리지가 목표인 80%에 도달하지 못함. 에러 케이스(Error Case) 테스트가 일부 누락됨 - Background Agent는 중간 과정을 확인하기 어려워 완료 통지를 기다려야 하는 형태임 - 도중에 방침 확인 다이얼로그가 여러 번 표시됨. 자율성은 Claude Code보다 약간 낮은 인상.

강점: 기존의 Cursor 워크플로우(탭 완성, Cmd+K 편집)와 심리스(Seamless)하게 연결된다는 점. 부분적인 수정을 반복하는 스타일에는 최적입니다.

Codex CLI는 codex --full-auto 모드로 실행했습니다. 네트워크 액세스를 차단한 샌드박스(Sandbox) 내에서 동작하도록 설계되었습니다.

지표	결과
실행 시간	15분 53초
사용자 개입 횟수	1회 (최초 승인만)
ts strict 에러	5개
ESLint 경고	11개
테스트 커버리지 (Test Coverage)	68%
추정 비용	약 $0.45

full-auto 모드의 자율성은 높음. 한 번 승인하면 끝까지 실행됨 - 다만, 코드 품질은 다소 거침. 타입 정의에 as any가 5곳 남아 있어 strict mode 에러가 발생함 - 테스트는 jest + supertest 조합이지만, 모킹(Mocking) 전략이 미흡하여 DB 모킹이 불완전한 부분이 있었음 - 비용은 가장 저렴함. o4-mini 모델 기반이라 토큰 단가가 낮음 - 샌드박스 제약으로 인해 외부 패키지 설치 과정에서 한 차례 문제가 발생함 (사전에 node_modules를 준비해 둘 필요가 있음).

강점: CI/CD 파이프라인에 내장하는 것을 전제로 한 설계. 비용 효율이 좋아 배치(Batch) 작업 방식에 적합합니다.

평가 항목	Claude Code	Cursor Agent	Codex CLI
실행 시간	8분 42초 🏆	12분 18초	15분 53초
사용자 개입 횟수	2회	5회	1회 🏆
ts strict 에러	0개 🏆	2개	5개
ESLint 경고	3개 🏆	7개	11개
테스트 커버리지 (Test Coverage)	87% 🏆	76%	68%
추정 비용	$0.85	$0.60	$0.45 🏆
IDE 통합	△ (터미널)	◎ 🏆	△ (터미널)
CI 연동 용이성	○	△	◎ 🏆

주석: 레이더 차트(Radar Chart)의 점수는 이번 측정 결과를 5단계로 정규화한 것입니다. 태스크의 성격에 따라 점수는 변동될 수 있음에 유의하십시오. Mermaid의 radar-beta가 렌더링되지 않는 환경에서는 위의 테이블을 참조해 주세요.

태스크 특성	권장 도구	이유
대규모 리팩터링 (설계 변경 포함)	Claude Code	의존성을 분석하여 정합성이 높은 코드를 생성
일상적인 기능 추가 · 버그 수정	Cursor Agent	IDE 통합을 통해 개발 흐름을 깨뜨리지 않음
대량 파일의 일괄 변환 · CI 자동 수정	Codex CLI	full-auto 모드 + 저비용으로 배치 처리(Batch Processing)에 적합
프로토타입의 고속 구축	Claude Code	속도와 품질의 균형이 최상
보안 중시 프로젝트	Claude Code / Codex CLI	Codex CLI는 샌드박스(Sandbox) 실행, Claude Code는 권한 제어가 명확

코드 품질과 실행 속도에서는 Claude Code가 한발 앞서 있다. 특히 파일을 가로지르는 설계 판단력과 자율적인 에러 수정 사이클이 강력하다 -
Cursor Agent는 IDE 통합이라는 독보적인 강점이 있다. 대화형으로 진행하고 싶은 상황, 차이점(Diff)을 육안으로 확인하며 신중하게 진행하고 싶은 리팩터링에 최적 -
Codex CLI는 비용 효율성과 CI 연동이 돋보인다. 코드 품질은 다른 두 도구에 비해 뒤처지지만, full-auto 모드의 자율성과 파이프라인(Pipeline)에組み込み(組み込み, 포함)하기 쉬운 점은 독자적인 가치를 지닌다

「최강의 도구」를 하나 선택하는 것이 아니라, 태스크의 성격에 따라 구분하여 사용하는 것이 2025년 AI 에이전트 활용의 최적해입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Claude Code vs Cursor Agent vs Codex CLI: 동일한 리팩터링 태스크를 3개의 AI 에이전트에게 시켜보고 정량

요약

핵심 포인트

댓글