Anthropic: Claude가 코드의 80% 이상을 작성하며, 작업 길이 역량이 4개월마다 두 배로 증가

Anthropic은 Claude가 코드의 80% 이상을 작성하고 있으며, 작업 길이 (task-length) 역량이 4개월마다 두 배로 증가하고 있다고 보고했습니다. Mythos Preview는 16시간 이상 자율적으로 작동합니다.

Anthropic은 2026년 5월 기준으로 Claude가 병합된 코드의 80% 이상을 작성했다고 밝혔습니다. 회사의 내부 지표에 따르면 작업 길이 (task-length) 역량은 기존 7개월마다 두 배가 되던 것에서 4개월마다 두 배가 되는 것으로 빨라졌습니다.

주요 사실

2026년 5월 기준, Claude가 Anthropic 병합 코드의 80% 이상을 작성함.
작업 길이 (task-length) 역량이 기존 7개월에서 4개월마다 두 배로 증가함.
Mythos Preview는 METR 기준 16시간 이상 자율적으로 작동함.
코드 속도 향상: Opus 4 대비 Mythos Preview가 52배 빠름 (Opus 4는 3배).
800개 이상의 수정 사항이 배포되었으며, 한 사례에서는 API 오류를 1,000배 감소시킴.

Anthropic은 AI 진보에 대한 광범위한 내부 평가를 발표하며, 회사가 '재귀적 자기 개선 (recursive self-improvement)에 매우 진지하게 임하고 있다'고 주장했습니다 @kimmonismus에 따르면. Anthropic 연구원 Kimmonismus가 공유한 이 분석은 AI가 곧 자신의 후계자를 설계하고 구축할 수 있게 할 가속화되는 자율적 역량의 모습을 보여줍니다.

역량 곡선 (The Capability Curve)

가장 핵심적인 지표는 다음과 같습니다: Claude는 2025년 2월 Claude Code가 출시되기 전 한 자릿수 미만이었던 것에 비해, 현재 Anthropic의 코드베이스에 병합되는 코드의 80% 이상을 작성합니다. 엔지니어들은 2021-2025년 기간에 비해 분기당 평균 8배 더 많은 코드를 배포합니다.

작업 길이 (task-length) 역량은 가장 눈에 띄는 추세선입니다. Opus 3 (2024년 3월)는 약 4분 길이의 작업을 처리했습니다. Sonnet 3.7 (1년 후)은 약 90분 길이의 작업을 관리했습니다. Opus 4.6 (또 1년 후)은 12시간 작업에 도달했습니다. METR은 Claude Mythos Preview가 현재 측정 가능한 최고 수준인 '최소' 16시간 동안 작업할 수 있음을 발견했습니다.

SWE-bench에서 점수는 2년 만에 한 자릿수 미만에서 포화 상태로 올라갔습니다. CORE-bench (연구 재현)는 15개월 만에 약 20%에서 포화 상태로 도달했습니다.

코드 품질 및 속도 (Code Quality and Speed)

Claude가 작성한 코드 품질은 2025년 말에는 인간보다 낮았으나, 현재는 거의 대등한 수준(parity)이며, 1년 이내에 확실히 더 나아질 것으로 예상됩니다. 코드 속도 향상(code-speedup) 테스트에서 Opus 4는 평균 약 3배의 속도 향상(2025년 5월)을 보였고, Mythos Preview는 약 52배(2026년 4월)에 도달했습니다. 숙련된 인간은 보통 4배의 속도 향상을 달성하는 데 4~8시간이 필요합니다.

2026년 4월의 한 사례: Claude는 특정 유형의 API 오류를 1,000배 줄이는 800개 이상의 수정 사항을 배포했습니다. 이는 엔지니어가 추산하기로 인간이 수행했을 경우 4년이 걸렸을 작업입니다.

연구 및 안전 (Research and Safety)

AI 안전(AI-safety) 연구 프로젝트에서 Claude 에이전트들은 800 컴퓨팅 시간(compute-hours)과 약 18,000달러를 절감하며 성능 격차의 97%를 회복했습니다(인간 연구원 2명이 일주일 동안 수행했을 때의 약 23%와 비교).

연구 세션에서 더 나은 '다음 단계'를 선택하는 과제에서, 가장 우수한 모델은 인간의 선택을 51%의 확률로 이겼으며(2025년 11월, Opus 4.5), 이는 64%까지 상승했습니다(2026년 4월, Mythos Preview).

현재 시점에서의 인간의 비교 우위는 연구적 취향(research taste)과 판단력입니다. 즉, 어떤 문제가 중요한지, 그리고 어떤 접근 방식이 막다른 길인지를 선택하는 능력입니다.

세 가지 미래 (Three Futures)

Anthropic은 세 가지 가능한 시나리오를 개략적으로 설명합니다: 첫째, 추세가 정체되는 경우(S-곡선)로, 이들은 이를 가능성이 가장 낮은 것으로 간주합니다. 둘째, 인간이 여전히 방향을 설정하면서 효율성 이득이 복리로 증가하는 경우로, 100명 규모의 기업이 10,000명 이상의 업무를 수행하게 되는 시나리오입니다(가장 가능성 높은 경로). 셋째, AI가 자신의 후계자를 구축하고 속도가 컴퓨팅 자원(compute)에 의해 결정되는 완전한 재귀적 자기 개선(recursive self-improvement) 단계입니다. 이는 그들이 정렬(alignment) 결과로서 가장 불확실하게 생각하는 시나리오입니다.

130명의 연구 인력을 대상으로 한 2026년 3월 설문조사에서 응답자 중앙값은 Mythos Preview를 통해 약 4배의 산출량(output)을 예상했습니다. 가장 어려운 개방형 과제(open-ended tasks)에서 Claude의 성공률은 2026년 5월 76%에 도달했으며, 이는 6개월 만에 50포인트 상승한 수치입니다.

주목해야 할 점

Anthropic의 다음 모델 출시와 작업 길이(task-length) 역량이 24시간 이상을 넘어서는지 주목하십시오. 또한 기업의 도입률을 추적하십시오. 만약 100명 규모의 기업이 실제로 10,000명 이상의 업무를 수행하게 된다면, 2026년 4분기까지 AI 서비스 지출 패턴에 급격한 변화가 나타날 것으로 예상됩니다.

원문 출처: gentic.news

Insights

Anthropic: Claude가 코드의 80% 이상을 작성하며, 작업 길이 역량이 4개월마다 두 배로 증가

요약

핵심 포인트

역량 곡선 (The Capability Curve)

코드 품질 및 속도 (Code Quality and Speed)

연구 및 안전 (Research and Safety)

세 가지 미래 (Three Futures)

주목해야 할 점

댓글

공개적인 Agent와 Eval Harness를 당신의 Proof of Work로 출시하세요

Claude Code에 SEO MCP 서버를 추가하는 방법

두 개의 코딩 에이전트가 동일한 이슈를 편집할 때 머지 충돌이 발생하지 않는 이유: git refs의 작동 원리

Hetzner의 LLM 추론 (Inference) 서비스: 첫 살펴보기

Claude Code에 SEO MCP 서버를 추가하는 방법

두 개의 코딩 에이전트가 동일한 이슈를 편집할 때 머지 충돌이 발생하지 않는 이유: git refs의 작동 원리

Hetzner의 LLM 추론 (Inference) 서비스: 첫 살펴보기