Anthropic 생산 코드의 80%가 이제 Claude에 의해 작성됩니다. 이것이 엔지니어들에게 실제로 의미하는 바는 무엇일까요?

지난주 저는 코드의 대부분을 직접 작성하지 않고도 완전한 SaaS 모듈을 출시했습니다.

프로토타입이 아닙니다. 일회성 스크립트도 아닙니다. VeloxSync를 위한 프로덕션 기능(production feature)이었습니다: 10개의 데이터베이스 테이블, 30개 이상의 API 엔드포인트(endpoints), 12개의 프론트엔드(frontend) 페이지, Stripe 결제 연동, 그리고 AI 기반 성적 구간 모델(grade-band models)에 매핑된 112개의 주(state) 학업 표준이 포함되었습니다. 단 한 번의 확장된 Claude Code 세션과, 지시 및 검토를 수행한 한 명의 엔지니어(나)가 있었을 뿐입니다.

예전에는 몇 주가 걸리던 일이었습니다.

이번 주, Anthropic은 왜 이런 일이 일어나고 있으며 이것이 어디로 향하고 있는지를 설명하는 내부 프로덕션 데이터를 공개했습니다. 만약 당신이 현재 전문적으로 소프트웨어를 구축하고 있다면, 이 보고서의 수치들을 직접 살펴볼 가치가 있습니다.

데이터가 실제로 말해주는 것
이것은 벤치마크(benchmark) 보고서가 아닙니다. Anthropic은 자신들의 자체 개발 프로세스 내부에서 나온 수치들을 공개하고 있습니다.

2026년 5월 기준, Anthropic의 프로덕션 코드베이스(production codebase)에 병합된 코드의 80% 이상이 Claude에 의해 작성됨
2024년 대비 엔지니어 1인당 하루에 병합되는 코드 양이 8배 증가
작업 범위(Task horizon)가 약 4개월마다 두 배로 증가: 2024년 3월, Claude는 인간이 약 4분 정도 걸리는 작업을 안정적으로 처리했습니다. 2026년 4월에는 그 기준이 12시간짜리 작업으로 늘어났습니다.
2026년 5월 기준, 완전히 개방된 작업(fully open-ended tasks)에 대해 76%의 성공률 기록 (6개월 만에 50퍼센트 포인트 상승)
Claude Mythos Preview를 통한 코드 최적화 벤치마크에서 52배의 속도 향상 달성 (숙련된 인간 엔지니어가 동일한 작업을 4~8시간 동안 수행했을 때의 약 4배와 비교)
2026년 4월, Claude가 단 한 번의 작업으로 800개 이상의 수정 사항(fixes)을 출시; 작업을 감독한 엔지니어는 인간이 수행했을 경우 4년이 걸렸을 것이라고 추정

이 수치들은 통제된 실험실 환경이 아닌, 회사의 실제 프로덕션 환경에서 나온 것입니다.

당신이 붙잡아야 할 차이점
이 보고서는 흔히 쓰이는 "AI가 개발자의 일자리를 뺏을 것이다"라는 프레임보다 더 유용한 구분선을 제시합니다.
수행 (The doing): 코드를 작성하고, 실험을 실행하며, 결과물을 생성하는 것.
지시 (The directing): 어떤 문제가 중요한지 결정하는 것. 접근 방식을 선택하는 것. 결과가 신뢰할 수 있는지 판단하는 것. 언제 멈춰야 할지를 아는 것.
수행은 이미 인간의 시간 측면에서 거의 비용이 들지 않는 수준에 도달했습니다.
지시는 여전히 인간의 영역입니다.
Anthropic의 내부 분석에 따르면, Claude는 잘 정의된 실험을 실행하는 데 있어 숙련된 인간과 대등하거나 그 이상의 성능을 보일 수 있습니다. 남은 격차는 목표 설정(goal-setting)에 있습니다. 즉, 어떤 실험을 수행할 가치가 있는지, 언제 결과물을 신뢰할 것인지, 언제 방향을 완전히 포기할 것인지에 대한 문제입니다.

보고서에 담긴 실제 사례
일상적인 업그레이드가 Anthropic 내부의 수만 개의 학습 작업(training jobs)을 충돌시키기 시작했습니다. 한 엔지니어가 텍스트 컨텍스트와 클러스터 접근 권한을 가지고 Claude를 실제 장애 상황에 투입했으며, 그 외의 가이드는 최소한으로 제공했습니다.
Claude는 실행 중인 작업들을 검토하고 한 번에 하나의 환경 설정을 테스트하며 진행한 끝에, 충돌을 유발하던 하나의 모호한 디버깅 플래그(debugging flag)를 찾아냈고, 이를 안정적으로 재현했으며, 수정 사항을 확인했습니다.
소요 시간: 약 2시간.
인간의 작업량 환산 시: 2~3일.
엔지니어는 여전히 이것이 위임하기에 적절한 종류의 문제임을 인식하고, 컨텍스트를 올바르게 설정하며, 수정 사항을 검증해야 했습니다. 그러한 판단은 자동화되지 않습니다.

아마 여러분이 궁금해할 코드 품질 문제
이 보고서는 이 부분에서 솔직합니다. 2025년 말 기준으로 Anthropic의 Claude가 작성한 코드는 가독성(Readability)과 유지보수성(Maintainability) 측면에서 사람이 작성한 코드보다 좋지 않았습니다. Anthropic은 현재 거의 대등한 수준(Parity)에 도달했으며, 1년 이내에 더 나아질 것으로 예상한다고 밝혔습니다.

또한 그들은 코드베이스에 제안된 모든 변경 사항이 병합(Merge)되기 전, Claude 기반의 자동 리뷰어를 실행하도록 배치했습니다. 과거의 변경 사항들에 대해 소급 적용하여 실행해 본 결과, 이 리뷰어는 claude.ai에서 발생했던 과거 운영 장애(Production incidents)의 원인이 된 버그 중 약 3분의 1을 잡아낼 수 있었을 것입니다. 보고서에서 언급했듯이, 이 시스템들을 구축하는 데 있어 세계 최고 수준인 엔지니어들이 작성한 코드임에도 불구하고 말입니다.

이것이 현재 도구(Tooling)의 상태입니다. 이론적인 이야기가 아닙니다.

이것이 현재 여러분의 업무에 의미하는 바
보고서는 인간의 남은 비교 우위로 "연구적 안목 (Research taste)", 즉 어떤 문제가 실제로 해결할 가치가 있는지를 결정하는 능력으로 정의합니다.
엔지니어들에게 이는 직접적으로 다음과 같이 번역됩니다.
어떤 Claude Code 세션을 실행할 가치가 있고, 어떤 세션이 그럴싸해 보이는 쓰레기(Garbage)를 만들어낼지 알 수 있을 만큼 시스템을 충분히 이해하고 있습니까? AI가 생성한 PR(Pull Request)을 검토하고 부하(Load) 상황에서 실패할 부분을 찾아낼 수 있습니까? 고객이 말하는 문제를 그들에게 실제로 필요한 아키텍처(Architecture)로 번역할 수 있습니까?
그러한 판단력은 어떤 도구를 사용할지 아는 것에서 나오지 않습니다. 그것은 무언가를 출시했다가 실패해 본 경험과 그 이유를 이해하는 것에서 나옵니다.

보고서는 또한 세 가지 가능한 미래를 제시합니다: 역량이 현재 수준에서 정체되어 널리 확산되는 경우, 인간이 연구 방향을 유지하면서 AI 개발이 실질적으로 자동화되는 경우, 또는 AI가 완전한 재귀적 자기 개선 (Recursive self-improvement)을 달성하는 경우입니다. Anthropic은 두 번째 시나리오가 단기적으로 가장 가능성 높은 결과라고 믿는다고 밝혔습니다.

그러한 세상에서는, 뛰어난 판단력을 가지고 10개의 Claude Code 세션을 지휘하는 엔지니어가 수동으로 10,000줄의 코드를 작성하는 엔지니어보다 더 가치 있습니다. 문제는 여러분이 그 수준에서 작동할 수 있는 명확성(Clarity)을 얼마나 빨리 개발하느냐 하는 것입니다.

실용적인 읽을거리
전체 보고서는 분량이 길지만, AI 인접 시스템(AI-adjacent systems)을 전문적으로 구축한다면 전체를 읽어볼 가치가 있습니다: anthropic.com/institute/recursive-self-improvement

Adam McClarin은 풀스택 AI 개발자이자 Meraki is Love (Soulful Tech)의 설립자입니다. CISSP, Azure AI Engineer 자격 보유자이며, 소프트웨어, 보안 및 AI 분야에서 20년의 경력을 가지고 있습니다.

Insights

Anthropic 생산 코드의 80%가 이제 Claude에 의해 작성됩니다. 이것이 엔지니어들에게 실제로 의미하는 바는 무엇일까요?

요약

핵심 포인트

댓글

단일 작업에서 작동하는 에이전트로: 트리거, 데이터, 액션, 전달

음성 복제 기술이 지식 기반 인증을 무너뜨렸다: 데이터 모델이 그 대안이다

실적 스코어보드: 빅테크 파동을 앞두고 S&P 500 조기 보고 기업의 83%가 EPS 추정치 상회

하! 해냈군요: "벤치마크 평가 지표를 위한 AI 작성 적합성 세트의 실행 가능한 벤치마크인 BenchBenchBenchBenchBench

단일 작업에서 작동하는 에이전트로: 트리거, 데이터, 액션, 전달

음성 복제 기술이 지식 기반 인증을 무너뜨렸다: 데이터 모델이 그 대안이다

실적 스코어보드: 빅테크 파동을 앞두고 S&P 500 조기 보고 기업의 83%가 EPS 추정치 상회

하! 해냈군요: "벤치마크 평가 지표를 위한 AI 작성 적합성 세트의 실행 가능한 벤치마크인 BenchBenchBenchBenchBench