
AI가 스스로를 구축할 때: 재귀적 자기 개선(Recursive Self-improvement)을 향한 우리의 진전
요약
Anthropic은 AI가 스스로를 설계하고 개발하는 '재귀적 자기 개선'의 가능성과 그 진전 상황을 분석합니다. AI가 개발 사이클을 가속화하며 코딩 에이전트에서 자율 에이전트로 진화함에 따라, 기술적 도약과 통제력 상실 위험이 공존함을 시사합니다.
핵심 포인트
- AI가 AI 개발 프로세스를 가속화하며 코드 배포 속도가 급증함
- 재귀적 자기 개선은 AI가 후속 모델을 자율적으로 구축하는 단계
- 에이전트의 작업 수행 가능 시간이 기하급수적으로 증가하는 추세
- 자율적 AI 시스템에 대한 모니터링 및 통제 기술의 중요성 증대
AI 역사의 대부분 동안, 인간은 개발 사이클의 모든 단계를 주도해 왔습니다. 하지만 Anthropic에서는 AI 개발의 점점 더 큰 비중을 AI 시스템 자체에 위임하고 있으며, 이는 우리의 작업 속도를 높이고 있습니다.
이러한 추세가 충분히 진행되고 충분한 컴퓨팅 자원(Compute)이 주어진다면, AI 시스템이 자신의 후속 모델을 완전히 자율적으로 설계하고 개발할 수 있는 능력을 갖추게 될 것임을 시사합니다. 이를 *재귀적 자기 개선 (Recursive self-improvement)*이라고 부릅니다. 우리는 아직 그 단계에 도달하지 않았으며, 재귀적 자기 개선이 필연적인 것도 아닙니다. 하지만 이는 대부분의 기관이 준비할 수 있는 것보다 더 빨리 찾아올 수 있습니다.
공개 벤치마크와 Anthropic 내부의 이전에는 보고되지 않은 데이터를 사용하여, Anthropic Institute는 AI가 이미 AI 시스템의 개발을 가속화하고 있음을 보여주고 있습니다. 한 가지 예만 들어보겠습니다. 오늘날 Anthropic의 엔지니어들은 2021~2025년 기간과 비교했을 때 분기당 평균 8배 더 많은 코드를 배포(Ship)하고 있습니다.
이 글에서 논의되는 기술적 트렌드는 향후 몇 년 동안 AI 시스템의 능력이 훨씬 더 향상될 것임을 시사합니다. 이러한 트렌드는 거대한 함의를 갖습니다. 스스로를 구축할 수 있는 AI는 기술 역사에서 중대한 발전이 될 것이며, 과학, 의료 및 그 너머의 분야에서 세상에 엄청난 이득을 가져다줄 수 있습니다. 하지만 완전한 재귀적 자기 개선은 인간이 AI 시스템에 대한 통제력을 상실할 위험을 증가시킬 수도 있습니다. 만약 시스템이 자신의 후속 모델을 완전히 구축할 수 있다면, 우리가 시스템을 확보하고, 모니터링하며, 행동을 형성하는 방식이 모두 훨씬 더 중요해집니다.
2021–2023
첫 번째 Claude 구축
초기 단계의 Anthropic에서의 업무는 다른 기술 기업의 업무와 비슷해 보였습니다. 사람들이 노트북으로 코드를 작성하고 문서를 만드는 방식이었습니다.
2023–2025
챗봇 (Chatbots)
사람들은 초기 챗봇을 사용하여 짧은 코드 스니펫(Code snippets)을 생성하고 출력을 텍스트 에디터에 복사하는 것과 같은 프로세스의 일부를 돕는 데 사용했습니다.
2025–2026
코딩 에이전트 (Coding agents)
에이전트의 능력이 향상됨에 따라, 에이전트들은 스스로 코드를 작성하고 편집할 수 있게 되었으며, 때로는 파일 전체를 작성하기도 했습니다.
오늘날
자율 에이전트 (Autonomous agents)
에이전트 (Agents)는 이제 스스로 코드를 실행하고, 다른 에이전트들에게 수 시간 분량의 작업을 위임할 수 있습니다.
20XX?
루프 닫기 (Closing the loop)
미래에는 에이전트가 스스로 모델을 구축하고 훈련할 수 있을 만큼 충분한 능력을 갖추게 될 수도 있습니다. 만약 이런 일이 발생한다면, Claude의 미래 버전들은 Claude 자신에 의해 지속적으로 개선될 수 있습니다.
외부 세계로부터의 증거
AI 모델이 개선되는 속도는 가속화되고 있습니다. 모델이 스스로 안정적으로 완료할 수 있는 작업의 길이는 이전에는 7개월마다 두 배로 늘어나는 추세였으나, 현재는 약 4개월마다 두 배로 늘어나고 있습니다. 2024년 3월, Claude Opus 3는 인간이 완료하는 데 약 4분이 걸리는 소프트웨어 작업을 수행할 수 있었습니다. 1년 후, Claude Sonnet 3.7은 약 1시간 반이 소요되는 작업을 처리했습니다. 그로부터 1년 후, Claude Opus 4.6은 12시간짜리 작업을 처리했습니다.1 이 추세가 유지된다면, 숙련된 사람이 며칠씩 걸리는 작업이 올해 범위 내로 들어올 수 있습니다. 2027년에는 AI 시스템이 사람이 몇 주씩 걸리는 작업을 수행할 수 있게 될 수도 있습니다.
코딩 및 연구 벤치마크 (Benchmarks)에서도 동일한 패턴이 나타납니다. 벤치마크는 특정 도메인에서 모델의 성능을 측정하며, 모델이 100%에 가까운 성능을 달성하면
CORE-Bench는 모델이 독창적인 연구를 수행하기 위한 전제 조건인 기존 연구를 재현할 수 있는지 테스트합니다. 이 벤치마크는 AI 모델에게 출판된 논문의 코드와 데이터를 제공하고, 모든 과정을 다시 실행하여 논문의 결과를 복제할 수 있는지 확인하도록 요청합니다. AI 시스템은 2024년에 결과를 재현하는 데 성공할 확률이 대략 20%였으나, 15개월 후에는 이 벤치마크를 포화 상태(saturating)로 만들었습니다. 모델이 장기 과업을 얼마나 잘 완료할 수 있는지 측정하는 벤치마크를 운영하는 METR은, Claude Mythos Preview가 "적어도" 16시간 동안 작업할 수 있으며 "[METR]이 새로운 과업 없이 측정할 수 있는 상한선에 있다"는 것을 발견했습니다.
공공 벤치마크는 이러한 시스템의 능력에 대해 많은 것을 말해줍니다. 하지만 AI 시스템이 AI 개발 자체를 가속화하는 데 미치고 있는 영향력까지 드러내지는 못합니다. 이를 위해서는 Anthropic과 같은 AI 기업 내부의 직접적인 증거가 필요합니다.
Anthropic 내부의 증거
프런티어 모델 (Frontier model)을 구축하는 데는 크게 두 가지 범주의 작업이 필요합니다. 코드를 작성하고, 인프라를 구축하며, 모델 학습을 감독하는 *엔지니어링 (engineering)*이 있습니다. 그리고 어떤 실험을 수행할지 결정하고, 결과값을 해석하며, 다음에 시도할 아이디어를 구상하는 *연구 (research)*가 있습니다.
엔지니어링과 연구 모두에서 양상은 일관적입니다. 엔지니어링 측면에서 Claude는 명확하게 정의되지 않은 문제 (underspecified problem)를 전달받아 이를 해결하는 방법을 찾아낼 수 있습니다. 인간은 목표를 제공하지만, 더 이상 방법론을 제공할 필요는 없습니다. 연구 측면에서 Claude는 이미 잘 정의된 실험을 실행하는 데 있어 숙련된 인간과 대등하거나 그 이상의 성능을 보여줍니다. 그러나 엔지니어링과 연구 모두에서 Claude가 목표를 선택할 때 판단력을 발휘하는 문제에 있어서는 여전히 큰 성능 격차가 존재합니다. 이것이 바로 오늘날의 AI와 자신의 후속 모델을 자율적으로 설계할 수 있는 미래 시스템 사이의 격차입니다.
Anthropic의 직원들이 경험을 쌓을수록 더 개방적이고 중요한 업무를 맡게 되는 것은 흔한 일입니다. 초기에는 "내보내기 버튼이 작동하지 않으니 수정해 주세요"와 같이 타인이 지정한 작업을 수행합니다. 경험이 쌓이면 "부하가 높을 때 네트워크가 느려지는 이유를 조사하세요"와 같이 목표를 부여받고 스스로 접근 방식을 설계합니다. 가장 높은 직급에 이르면, "다음 분기에는 팀이 무엇을 구축해야 하는가?"와 같이 어떤 문제가 해결할 가치가 있는지 자체적으로 결정합니다. 우리는 Anthropic의 내부 데이터를 사용하여 Claude가 이러한 다양한 종류의 작업을 처리하는 데 있어 얼마나 발전했는지 확인할 수 있습니다.
Claude는 Anthropic 코드의 상당 부분을 작성합니다. 2026년 5월 기준으로, Anthropic의 코드베이스(codebase)에 병합되는 코드의 80% 이상이 Claude에 의해 작성되었습니다.3 2025년 2월 Claude Code가 연구 프리뷰(research preview)로 출시되기 전까지 이 수치는 한 자릿수 초반에 불과했습니다. 이러한 변화는 엔지니어당 산출량에서도 나타납니다. 엔지니어 1인당 하루에 병합되는 코드 라인 수(Lines of code)는 Anthropic의 초기 4년(2021-2024) 동안 일정하게 유지되었으나, Claude가 단순히 엔지니어가 복사하여 붙여넣을 코드를 제안하는 것을 넘어 직접 코드를 실행하기 시작한 2025년에 상승하기 시작했습니다. 모델이 더 긴 시간 지평(time horizons)에 걸쳐 자율적으로 작업하기 시작한 2026년에는 기울기가 다시 가팔라졌습니다. 이 두 가지 변곡점(inflection points)은 아래 차트에 표시되어 있습니다. 2026년 2분기에 일반적인 엔지니어는 2024년에 비해 하루에 8배 더 많은 코드를 병합했습니다.4 이는 엔지니어가 직접 코드를 타이핑하는 대신, Claude가 작성한 코드의 상당 부분을 엔지니어가 지시하고 검토하기 때문입니다.

주의할 점이 있습니다. 코드 라인 수(Lines of code)는 질보다 양을 측정하기 때문에 불완전한 지표입니다. 따라서 2026년 2분기의 엔지니어당/일일 코드 8배라는 수치는 실제 생산성 향상치를 거의 확실히 과장한 것입니다. 그럼에도 불구하고, 이는 가속화가 일어나고 있음을 나타냅니다. Anthropic에서는 사람들이 얼마나 많은 코드 라인을 작성하는지에 대해 보상하지 않습니다. 오히려 팀원들이 더 많은 코드를 작성하기 위해 AI 시스템을 사용하고 있기 때문에 단순히 더 많은 코드를 생산하고 있는 것입니다.
작성된 코드 라인 수의 증가는 대규모 생산성 향상에 대한 주관적인 인상과 일치합니다. 2026년 3월 Anthropic 연구 팀 전반의 직원 130명을 대상으로 실시한 설문 조사에서, 응답자 중앙값은 AI 모델에 접근할 수 없었을 때 수행했을 프로젝트 유형을 기준으로 Mythos Preview를 사용했을 때 약 4배 더 많은 결과물을 생산했다고 추정했습니다.5 우리는 3월의 실제 향상 정도가 이보다 다소 낮았을 것으로 예상합니다.6 그럼에도 불구하고, 우리는 이 전반적인 주장이 타당하며 우리의 다른 관찰 결과와도 일치한다고 판단합니다. 즉, Anthropic 기술 인력의 상당수가 AI의 도움 없이는 불가능했을 속도로 핵심 업무를 몇 배나 더 빠르게 완수하고 있습니다.
우리는 또한 Anthropic의 사람들이 탐색적 도구(exploratory tooling)를 구축하거나 오랫동안 미뤄왔던 정리 작업을 처리하는 것과 같이, 그렇지 않았다면 아예 일어나지 않았을 업무를 수행하기 위해 Claude를 사용하고 있다는 증거도 확인하고 있습니다. 예를 들어, 2026년 4월에 Claude는 특정 유형의 API 오류를 1,000분의 1로 줄이는 800개 이상의 수정 사항을 배포했습니다. Claude를 감독하는 엔지니어는 사람이 이 작업을 완료하는 데 4년이 걸렸을 것이라고 추정했습니다. 타인의 버그를 해결하는 작업은 느리고 고통스러우며, 인간은 그토록 많은 생소한 컨텍스트(context)를 한꺼번에 머릿속에 담아두는 데 어려움을 겪습니다.
저는 약 1년 전부터 'Claudifying(Claude화)'에 본격적으로 의존하기 시작했습니다. 그것은 미친 듯한 모험이었으며, 제가 직접 코드를 작성한 지는 이제 약 5개월이 되었습니다.
Claude가 작성하는 코드는 "훌륭하며" 계속해서 개선되고 있습니다. "훌륭한 코드"는 두 가지를 의미합니다. 즉, 코드가 제대로 작동해야 하며, 다른 엔지니어가 이를 이해하고 그 위에 기능을 구축할 수 있는 방식으로 작성되어야 한다는 것입니다. 첫 번째 기준에 대해서는 증거가 명확합니다. 가장 복잡하고 개방적인 (open-ended) 작업들을 포함하여, Anthropic 직원들이 Claude의 작업을 수정하거나, 방향을 재설정하거나, 작업 중간에 개입하여 넘겨받는 비율이 1년 동안 꾸준히 감소해 왔습니다. 이는 엔지니어가 정답이 어떤 모습일지 확신할 수 없는, 명확한 사양 (specification)이 없는 문제들에 대해서도 해당된다는 것을 의미합니다. 이는 아래 그래프에서 보여주는 것처럼, 다양한 난이도의 작업에 대한 Claude의 시간이 지남에 따른 성공률에서 명확히 드러납니다. Claude는 작동하는 코드를 작성합니다.

해석 방법: 세션 성공 여부는 Claude 판독기 (judge)에 의해 결정됩니다. Claude Code 에이전트가 수정 사항을 요구하지 않고 사용자의 작업을 명확히 완수했다면 해당 세션은 성공한 것으로 간주됩니다. 작업 부하 (workloads)의 변화는 성공률의 단기적인 변동을 초래할 수 있습니다. 가장 개방적인 (open-ended) 작업에서 Claude의 성공률은 2026년 5월에 76%에 도달했으며, 이는 6개월 만에 50%포인트 상승한 수치입니다. 이 정도 난이도에 해당하는 작업의 예로, 일상적인 업그레이드가 수만 개의 학습 작업을 충돌(crash)시키기 시작한 사례가 있습니다. 한 엔지니어가 약간의 텍스트 내용과 클러스터 접근 권한만을 가지고 Claude에게 실제 발생 중인 사고를 지시했습니다. 실행 중인 작업들을 살펴보고 한 번에 하나의 환경 설정을 테스트하며 진행한 끝에, Claude는 충돌을 유발하는 단 하나의 모호한 디버깅 플래그 (debugging flag)를 찾아냈고, 이를 안정적으로 재현했으며, 수정 사항을 확인했습니다. 약 2시간 만에 Claude는 보통 2~3일이 걸릴 작업을 완료했습니다.
두 번째 기준은 다른 엔지니어가 이해하고 그 위에 구축할 수 있는 코드를 작성하는 것입니다. 이 부분에서는 인간과 AI 사이의 격차가 여전히 존재하지만, 빠르게 좁혀지고 있습니다. Anthropic 직원들 사이에서 완전한 합의가 이루어진 것은 아니지만, 많은 이들이 2025년 말 기준으로 Claude가 작성한 코드의 품질이 Anthropic 직원이 작성한 코드보다 여전히 낮았으나, 현재는 거의 대등한 수준 (parity)에 도달했다고 믿고 있습니다. 우리는 1년 이내에 Claude의 코드가 더 나아질 것으로 기대합니다.
이러한 변화는 Anthropic이 자체 코드를 검토하는 방식을 바꾸어 놓았습니다. 이제 코드베이스에 제안된 변경 사항은 머지(merge)되기 전, 버그, 보안 결함 및 기타 결함을 찾아내는 자동화된 Claude 리뷰어에 의해 검토됩니다. 이 도구를 사용하여 우리는 사후 분석(retrospective analysis)을 수행했으며, 코드베이스의 모든 변경 사항에 대해 Claude가 자동 리뷰를 수행했다면 claude.ai에서 발생했던 과거 장애 사례 중 약 3분의 1에 해당하는 버그를 프로덕션(production)에 도달하기 전에 잡아냈을 것이라는 사실을 발견했습니다. 해당 코드를 작성한 엔지니어들은 이러한 시스템을 구축하는 데 있어 세계 최고 수준의 인재들입니다. 이제 Claude가 그들이 놓친 실수들을 잡아내고 있습니다.
2025년 말 기준으로 Claude가 작성한 코드는 Anthropic의 인간이 작성한 코드보다 다소 성능이 떨어졌으나, 현재는 거의 대등한 수준 (parity)에 도달해 있으며, 1년 이내에 Claude의 코드가 더 나아질 것으로 기대합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기