AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

AI 개발에서 인간이 맡던 구현·실험 작업의 더 큰 비중이 AI 시스템으로 넘어가며 Anthropic의 개발 속도를 높이고, 충분한 컴퓨트와 진전이 결합되면 후속 모델을 자율 설계·개발하는 재귀적 자기 개선으로 이어질 수 있음

모델이 독립적으로 완료할 수 있는 작업 시간 지평은 약 4개월마다 두 배로 늘고 있으며, Claude는 2024년 3월 약 4분짜리 소프트웨어 작업에서 2026년 12시간짜리 작업까지 처리 범위를 넓힘

2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2026년 2분기 일반 엔지니어의 하루 병합 코드량은 2024년 대비 8배 수준으로 증가함

Claude는 명확히 정의된 실험 실행에서 빠르게 강해져 2025년 5월 약 3배 코드 속도 개선에서 2026년 4월 약 52배 개선까지 도달했지만, 어떤 문제와 결과를 중시할지 고르는 연구 판단은 여전히 인간의 비교우위로 남아 있음

가능한 미래는 현 추세의 정체, 인간이 방향을 정하는 복합 효율 향상, 완전한 재귀적 자기 개선으로 나뉘며, 안전한 감속이나 일시 중지를 위해서는 여러 국가의 최전선 연구소가 참여하는 검증 가능한 조율이 핵심 과제임

핵심 전환

AI 역사 대부분에서 개발 주기의 모든 단계는 인간이 주도했지만, Anthropic은 AI 개발의 점점 더 큰 몫을 AI 시스템에 맡기며 작업 속도를 높이고 있음

재귀적 자기 개선은 AI 시스템이 자신의 후속 시스템을 완전히 자율적으로 설계하고 개발할 수 있는 상태를 뜻함

Anthropic은 아직 그 단계에 도달하지 않았고, 재귀적 자기 개선도 필연적이지 않지만, 대부분의 기관이 준비한 것보다 더 빨리 올 수 있다고 봄

AI가 스스로를 만들 수 있게 되면 과학·의료 등에서 큰 이익을 가져올 수 있지만, 인간이 AI 시스템에 대한 통제력을 잃을 위험도 커질 수 있음

후속 모델을 완전히 만들 수 있는 시스템에서는 보안, 모니터링, 행동 형성이 더 중요해짐

외부 지표가 보여주는 능력 상승

METR 기준에서 AI 시스템이 안정적으로 독립 완료할 수 있는 작업 길이는 약 4개월마다 두 배로 늘고 있으며, 이전 추세였던 7개월마다 두 배보다 빨라짐

2024년 3월 Claude Opus 3는 인간 기준 약 4분짜리 소프트웨어 작업을 완료했고, 1년 뒤 Claude Sonnet 3.7은 약 1시간 30분짜리 작업을, 그 다음 해 Claude Opus 4.6은 12시간짜리 작업을 처리함

이 추세가 유지되면 올해 숙련자가 며칠 걸리는 작업이 가능 범위에 들어오고, 2027년에는 사람이 몇 주 걸리는 작업까지 가능해질 수 있음

SWE-bench는 실제 오픈소스 코드베이스와 버그 리포트를 주고 수정 코드를 요구하는 소프트웨어 엔지니어링 벤치마크이며, 모델 점수는 2년 만에 한 자릿수 초반에서 벤치마크 포화 수준으로 올라감

CORE-Bench는 출판 논문의 코드와 데이터를 재실행해 결과 재현을 확인하는 테스트이며, AI 시스템은 2024년 약 20% 성공에서 15개월 뒤 포화 수준까지 도달함

METR는 Claude Mythos Preview가 “최소” 16시간 동안 작업할 수 있었고, 새 작업 없이는 METR가 측정할 수 있는 “상한에 가까운” 수준이라고 평가함

Anthropic 내부의 엔지니어링 변화

최전선 모델 개발은 코드 작성·인프라 구축·학습 감독을 포함하는 엔지니어링과, 실험 선택·결과 해석·다음 아이디어 결정을 포함하는 연구로 나뉨

엔지니어링에서 Claude는 덜 구체화된 문제를 받아 해결 방법을 찾아낼 수 있으며, 인간은 목표를 제공하지만 방법을 일일이 제공할 필요가 줄어듦

연구에서 Claude는 잘 정의된 실험 실행에서는 숙련된 인간과 맞먹거나 능가하지만, 엔지니어링과 연구 모두에서 목표 선택 판단에는 큰 격차가 남아 있음

2026년 5월 기준 Anthropic 코드베이스에 병합되는 코드의 80% 초과가 Claude 작성 코드이며, 2025년 2월 Claude Code 연구 미리보기 출시 전에는 이 비율이 한 자릿수 초반이었음

엔지니어 1인당 하루 병합 코드 줄 수는 2021~2024년 거의 일정하다가 Claude가 복사·붙여넣기용 제안을 넘어 코드를 실행하기 시작한 2025년에 상승했고, 더 긴 시간 지평에서 자율 작업을 시작한 2026년에 다시 기울기가 가팔라짐

2026년 2분기 일반 엔지니어는 2024년 대비 하루 8배 많은 코드를 병합했으며, 많은 코드가 엔지니어가 직접 타이핑한 것이 아니라 Claude가 작성하고 엔지니어가 지시·검토한 결과임

코드 줄 수는 품질보다 양을 재는 불완전한 지표이므로 8배라는 수치는 실제 생산성 향상을 과장할 가능성이 크지만, Anthropic 내부의 가속은 시사함

2026년 3월 Anthropic 연구팀 직원 130명 대상 설문에서 중앙값 응답자는 Mythos Preview를 사용할 때 AI 모델이 전혀 없을 때보다 약 4배 많은 산출물을 냈다고 추정했으며, Anthropic은 실제 향상 폭이 이보다 다소 낮았을 것으로 봄

2026년 4월 Claude는 한 종류의 API 오류를 1,000분의 1로 줄이는 수정 800건 초과를 배포했고, 감독 엔지니어는 인간이 같은 작업을 완료하는 데 4년이 걸렸을 것으로 추정함

코드 품질과 리뷰

좋은 코드는 작동할 뿐 아니라 다른 엔지니어가 이해하고 이어서 만들 수 있어야 함

Claude 작업 중 Anthropic 직원이 수정·방향 전환·중간 인수를 해야 하는 비율은 1년 동안 꾸준히 하락했으며, 복잡하고 개방적인 작업에서도 같은 흐름을 보임

가장 개방적인 작업에서 Claude의 성공률은 2026년 5월 76%에 도달했고, 6개월 동안 50%포인트 상승함

정기 업그레이드 후 수만 개 학습 작업이 충돌한 사건에서 엔지니어가 텍스트 맥락과 클러스터 접근만 제공하자 Claude는 실행 중인 작업을 조사하고 환경 설정을 하나씩 테스트해 충돌을 일으킨 obscure 디버깅 플래그 하나를 분리했으며, 약 2시간 만에 보통 2~3일 걸릴 작업을 끝냄

Anthropic 내부에는 2025년 말 Claude 작성 코드가 인간 작성 코드보다 품질이 낮았지만 현재는 대략 동등하며 1년 안에 더 나아질 것이라는 견해가 많음

Anthropic 코드 변경은 병합 전에 자동 Claude 리뷰어가 버그, 보안 결함, 기타 결함을 검사하며, 과거 분석에서 모든 코드 변경에 자동 Claude 리뷰가 적용됐다면 claude.ai 과거 장애 원인 버그의 약 3분의 1을 프로덕션 도달 전에 잡았을 것으로 나옴

실험 실행과 연구 판단

Anthropic은 모델 출시 때마다 작은 AI 모델을 학습하는 코드를 주고, 같은 정합성 검사를 통과하면서 가능한 한 빠르게 실행되도록 개선하라는 테스트를 수행함

이 테스트는 목표와 성공 지표가 미리 고정되어 있어, Claude가 코드를 고치고 실행하고 시간을 재며 반복하는 축소판 실험 연구 루프에 해당함

숙련된 인간 연구자는 같은 작업에서 4배 개선에 4~8시간이 필요하며, 절대 배수는 시작 코드의 개선 여지에 크게 좌우되므로 실제 학습 속도 개선으로 해석해서는 안 됨

2026년 4월 Anthropic의 약한 모델이 강한 모델을 안정적으로 감독할 수 있는지에 관한 AI 안전 연구 프로젝트에서 Claude 기반 에이전트는 가설 제안, 테스트, 병렬 에이전트와 결과 공유, 반복을 수행함

해당 작업에서 두 명의 인간 연구자는 약 1주일 동안 성능 격차의 약 23%를 회복했고, 에이전트들은 누적 800시간과 약 18,000달러의 컴퓨트로 97%를 회복함

이 결과는 프로덕션 규모 모델로 깨끗하게 전이되지 않았고, 문제 선택과 채점 기준 작성은 인간이 맡았다는 제약이 있음

2026년 1~3월 실제 Claude Code 연구 세션 분석에서 연구자가 빗나간 방향을 택한 순간 129개를 골라 이전 맥락만 모델에 제공했을 때, 2025년 11월 Opus 4.5는 인간 선택보다 나은 다음 단계를 51% 비율로 냈고 2026년 4월 Mythos Preview는 64%까지 올라감

이 비교는 인간 선택에 개선 여지가 있는 순간만 골랐기 때문에 인간과 모델의 동등 비교는 아니며, 인간의 다음 선택이 이미 강한 별도 127개 순간에서는 모델 제안이 더 낫다는 판정이 약 20%에 그침

인간 역할의 축소와 병목

AI 개발 과정의 각 단계에서 인간 역할은 좁아지고 있으며, 인간과 AI 작성 코드 품질이 동등해지면 인간은 코드 작성을 멈추고 검토에 집중할 수 있음

Claude가 생성하는 속도만큼 인간이 검토하지 못하면 인간 코드 리뷰가 AI 개발의 병목이 됨

Claude가 실험을 실행할 수 있게 되면 핵심 질문은 어떤 실험을 실행할 가치가 있는지로 옮겨감

코드 작성, 실험 실행, 결과 산출 같은 “수행”은 컴퓨트 비용이 남아 있더라도 인간 시간 관점에서는 거의 비용이 들지 않게 됨

현재 인간의 비교우위는 어떤 문제가 중요한지, 어떤 결과를 신뢰할지, 언제 접근을 포기할지 판단하는 연구 취향과 판단력에 있음

세 가지 가능한 미래

첫 번째 미래는 현재 추세가 S-커브처럼 정체되지만 현재 AI 능력이 널리 확산되는 경우임

이 경우 연구 판단은 컴퓨트와 데이터 같은 학습 입력 확대로 나오지 않는 능력일 수 있고, 병목 돌파에는 현재 최전선 모델이 쓰는 Transformer 구조를 대체하는 새 접근 같은 아이디어가 필요할 수 있음

AI 진전의 제약은 모델이 아니라 에너지, 컴퓨트, 칩 제조, 전력망 확장, 인터커넥트 대역폭 같은 공급망일 수도 있음

모델 능력이 오늘 수준에서 멈춰도 Project Glasswing은 첫 몇 주 동안 세계 중요 시스템에서 고위험·치명적 소프트웨어 취약점 1만 건 초과를 찾아냈고, 사이버 방어 병목은 취약점 발견에서 충분히 빠른 패치로 이동함

두 번째 미래는 AI 개발이 상당 부분 자동화되지만 인간이 연구 방향을 정하고 결과를 판단하는 복합 효율 향상 시나리오임

이 경우 AI 시스템을 쓰는 조직은 시간이 갈수록 훨씬 효율적이 되어 100명 회사가 1만 명 또는 10만 명 조직의 일을 할 수 있음

이런 변화는 지식 노동과 정부 서비스를 혁신할 수 있지만, 전체 인구에 대한 권위주의적 감시나 개인별 조작을 대규모로 맞춤 실행하는 영향 작전에도 쓰일 수 있음

Anthropic은 코드 리뷰가 새로운 병목이 되는 현상을 이미 겪었으며, 이는 프로세스 일부만 빨라질 때 전체 속도는 빨라지지 않은 부분에 제한된다는 Amdahl’s law의 조직적 사례임

세 번째 미래는 AI 시스템이 완전한 재귀적 자기 개선 능력을 갖추고 후속 시스템을 만들기 시작하는 경우임

이 세계에서 AI 개발 속도는 AI 시스템이 사용할 수 있는 컴퓨트, 또는 학습·추론 알고리듬 효율 발견 속도에 의해 결정됨

인간은 AI 시스템이 운영하는 확장된 “가상 연구소”를 감독, 검증, 확인하는 쪽으로 역할이 크게 줄어들 가능성이 큼

자동화된 AI 연구개발 능력은 다른 과학 분야로도 전이되어 여러 분야를 혁신하기 시작할 수 있음

이 미래의 정렬 문제는 가장 불확실한 영역이며, 모델이 새로운 해결책을 찾아 구현할 수도 있지만 현재 모델의 드문 비정렬 발생이 후속 모델 구축 과정에서 더 빈번하고 이해하기 어려운 형태로 누적될 수도 있음

재귀적 지능이 실험실 상류에서는 컴퓨트 속도로 움직이더라도, 약물이 수십 년 사용에서 드러내는 효과, 헌법이 정한 선거 시점, 인간관계와 거버넌스 같은 병목은 그대로 남음

감속과 조율

이 기술 개발을 효과적으로 늦춰 그 영향에 대응할 시간을 벌 수 있다면 좋을 가능성이 크지만, 감속이 덜 신중한 행위자의 기술 추격만 허용한다면 모두를 덜 안전하게 만들 수 있음

Anthropic은 사회 구조와 정렬 연구가 기술 진전에 맞춰 따라갈 수 있도록 최전선 AI 개발을 늦추거나 일시 중지할 선택지가 세계에 필요하다고 봄

The Anthropic Institute는 다른 기관들과 협력해 신뢰할 수 있는 감속이나 일시 중지에 필요한 시스템을 연구하고 구축하는 행동을 하려 함

그런 시스템은 전 세계 최전선 AI 개발자가 실제로 멈췄거나 늦췄는지, 악의적 행위자가 조율된 감속을 이용해 비밀리에 앞서가지 않는지 검증할 수 있어야 함

의미 있는 감속이나 일시 중지는 여러 국가의 충분한 자원을 가진 최전선 또는 준최전선 연구소들이 같은 조건으로 멈추는 데 합의하고 서로의 중단을 검증해야 가능함

AI 시스템의 특성상 학습 실행은 미사일 격납고보다 훨씬 숨기기 쉽고, 입력은 범용적이며, 다른 이들이 멈춘 동안 조용히 이탈해 선두를 차지할 유인이 큼

다른 복잡한 기술에서는 검증 체제가 만들어진 적이 있지만, 그런 체제는 인프라와 신뢰 구축에 수십 년이 걸렸고 AI에는 그렇게 긴 시간이 없음

한 연구소의 일방적 일시 중지는 즉시 가능하지만, 선두 주체를 바꿀 뿐 현재 부족한 더 넓은 숙의 과정을 만들지는 못함

Anthropic은 앞으로 몇 달 동안 정책입안자, 연구자, 시민사회, 다른 AI 기업이 완전한 재귀적 자기 개선과 조율·숙의 선택지에 관한 질문을 함께 다루는 대화를 조직하고 결과를 공개할 계획임

Anthropic은 대부분의 코드를 AI가 쓰고 계속 개선할 수 있다고 홍보하지만, 실제로는 장애와 요청 제한이 너무 잦아 긴 작업은 거의 항상 API Error: Server is temporarily limiting requests에 막힘
최근 2주 동안 비 trivial한 Claude 세션은 100% 수동 개입이 필요했고, 이제는 세션 재시작·재개를 위한 자체 도구까지 만들어야 하는 수준임
그래서 모델에 묶이지 않는 하네스와 워크플로 오케스트레이션을 직접 만들고 있으며, Opus를 기준으로 삼되 단기적으로는 DeepSeek 같은 중국 모델, 장기적으로는 오픈·자가 호스팅 모델로 옮기려 함
Anthropic의 서비스 품질과 가용성이 눈에 띄게 나빠지는 와중에 마케팅만 계속되는 모습이 회사에 대한 신뢰를 계속 깎아먹고 있음

인프라는 훨씬 어려운 문제임
Claude Code조차 RAM을 1GB 넘게 먹는데, 내 편집기는 80MB만 씀

수십억 달러를 받았는데도 제대로 된 지원·공개 커뮤니케이션 체계를 못 갖춘 것도 잊으면 안 됨

사용자와 투자자들이 계속 돈을 던져주고 있으니 신경 쓸 이유가 없음
아직 당신이나 충분히 많은 사용자가 떠날 만큼 짜증 나지는 않았고, 더 나은 대안도 없기 때문임

Anthropic은 인증이 있는 로그인 페이지조차 없음
콘솔에 들어가려면 이메일 링크를 받는 방식이고, 패스키·비밀번호·2FA 없이 이메일뿐임

장애 원인은 아마 코드가 아니라 따라가지 못하는 인프라일 가능성이 큼
인프라 실패만 보고 Anthropic이 모델을 얼마나 잘 활용하는지 판단하긴 어려움

바이브 코딩이 시작된 이후, 바이브 코딩 자체를 제외하면 소프트웨어 돌파구가 정확히 하나도 없었다는 점이 걸림
Claude가 놀라운 건 맞지만, 글에서 암시하는 만큼 대단하다면 AI 바깥 영역에서도 뭔가 돌파구가 나와야 했을 것 같음
Zig 프로그램을 unsafe Rust로 다시 쓰는 건 돌파구가 아니고, 보안 취약점을 많이 찾는 건 어쩌면 돌파구일 수 있지만 기대보다 약하고 순손실일 수도 있음
2023년 소프트웨어로 되돌아가도 삶은 괜찮을 것 같고, 정말 놀랄 만한 돌파구가 곧 나올지는 시간을 줘봐야 알 듯함

지금은 이상한 위치에 있음
이 모델들은 실제로 매우 뛰어나지만, 그 자체로 지능이라고 하긴 멀다
5년 전에 누가 이런 걸 만들 수 있다고 했다면 1조 달러 수표를 써줬겠지만, 막상 얻고 보니 전부는 아니었다는 걸 알게 된 셈임
풍부하고 싼 메카 슈트 같은 도구라서, 매일 누군가 올라타서 일해야 효과가 난다
그래서 회의론자는 과대평가라고 하고, 낙관론자는 회의론자가 골대를 옮긴다고 비난함

대규모 국가 감시 쪽 돌파구는 곧 올 테니 걱정 안 해도 됨

혼자 꽤 큰 프로젝트를 하고 있는데, 이건 그냥 바이브 코딩으로 처리할 수 있는 규모가 아님
AI 덕분에 혼자서는 못 했을 일을 많이 하지만, 생산성이 몇 배로 뛰었다고 느끼진 않음
원하는 대로 움직이게 하려고 AI 조련에 너무 많은 시간을 쓰고, Claude가 JavaScript와 Python 코드를 다 쓰더라도 결국 영어로 프로그래밍하는 셈임
짧은 영어 설명으로 많은 하위 코드를 구현해주는 아주 고수준 컴퓨터 언어처럼 동작할 때는 좋지만, 원하는 결과를 얻기 위해 많은 노력이 드는 경우도 많음

돌파구의 기준이 낮은 건지 모르겠지만, 여러 변화는 꽤 큰 돌파구로 보임
자연어 처리 분야는 크게 바뀌었고, 예전에는 복잡하고 부정확했던 작업도 LLM의 구조화 출력으로 더 쉽고 빠르게, 종종 더 정확하게 만들 수 있음
돕고 있는 작은 자선단체는 Manus로 일상 운영을 관리하는 자체 웹사이트를 만들었고, 수만 달러 들던 맞춤형 소프트웨어가 월 10달러와 자원봉사 시간으로 가능해졌음
형은 Cowork로 사람이 검토하기 전 계약서를 자동 검토하도록 구성 중인데, 반복 확인 항목에서는 사람보다 훨씬 꼼꼼하다고 함
AI가 버그와 취약점을 찾는 것도 과소평가하면 안 됨. 코드 품질과 리뷰 기준을 유지하면 LLM은 더 견고한 소프트웨어 작성에 도움을 주며, 실제로 배포 전 잠재적 범위 밖 메모리 접근과 세그폴트까지 많이 찾아줬음
ChatGPT는 월간 활성 사용자 10억 명이고, 사람들은 인간 지원망이 따라갈 수 없는 규모와 비용으로 인생·금융·정신건강 조언을 챗봇에서 받고 있음

소프트웨어가 스스로 작성되는 건 꽤 큰 돌파구처럼 보임

Anthropic의 AI 안전 목표와 재귀적 자기 개선을 전속력으로 추진하는 일이 어떻게 양립하는지 모르겠음
핵무기가 아직 발명되지 않았다면, 평시에도 가능한 한 빨리 만들고 파는 게 정말 좋은 생각이었을까
Anthropic의 경고가 순수한 마케팅 과장이라고 믿을 만큼 냉소적이진 않지만, 과신이거나 자기 챗봇과 너무 오래 이야기한 결과이길 바랄 뿐임

핵무기는 적어도 먼저 보유해야 할 이유를 논할 수는 있음
AI는 초지능을 만들면 아마 그 초지능이 가장 먼저 없앨 대상이 당신일 수 있음
초지능이 유인원의 노예로 지내는 걸 괜찮아할 이유는 없음
이런 회사들에 대한 냉소는 충분히 정당하고, 행동을 보고 깊이 신뢰할 수 없다고 결론 내리는 건 파멸론이 아님

Anthropic이 AI를 중대한 위험으로 믿고 있긴 하다고 봄
다만 죄수의 딜레마를 덕이 없는 행위자로 플레이하는 중임
누군가 강한 AI를 만들면 재앙적으로 나쁠 수 있지만, 누군가 만든다면 만든 쪽이 안 만든 쪽보다 유리함
재앙이 아니면 만든 쪽이 이익을 오래 누릴 것이고, 재앙이라도 최소한 한동안은 부자가 될 수 있기 때문임

Anthropic의 목표는 규제 포획임

비유를 완성하면 핵무기와 비슷하지만, 대기를 불태울 확률을 계산하는 법조차 전혀 모르는 상태에 가까움
실제 역사에서도 Trinity 실험의 대기 점화 계산은 맞았지만, Castle Bravo 실험의 낙진은 치명적인 결과와 함께 잘못 계산했음

증거가 뒷받침하는 현실 평가라면 냉소가 아님
현 세대 기술 기업가들의 첫 번째 아이였던 소셜 미디어도 원래는 세상을 하나로 묶고 우리가 자신을 표현하게 해준다고 했지만, 결국 참여도를 높이기 위해 분열을 키우고 친구 콘텐츠 대신 끝없는 광고를 먹이는 쪽이 돈이 더 됐음
분기 실적 보고서에는 좋은 분위기를 적을 수 없지만, 분노 유발 콘텐츠가 끌어온 시선과 매출 전환율은 적을 수 있음
생성 AI도 똑같이 갈 것임. James Cameron 영화 경력만 알아도 이걸 죽여야 한다고 할 사람이 많으니 AI 안전을 약속하는 것뿐이고, 실제 강제 장치는 없음
안전은 온라인 커뮤니티의 조화처럼 좋은 느낌일 뿐 측정하기 어렵지만, 훈련 비용과 실수 회피 비용은 측정 가능함
AI 출력은 어떤 예산으로도 사람이 전부 품질보증할 수 없을 만큼 많고, 시장은 AI를 끝없는 가치 원천으로 보기 때문에, 속도를 늦추고 재평가하기보다 AI가 스스로 훈련하며 잠재적으로 끔찍한 결정을 내리는 쪽을 택할 것임
실리콘밸리에는 AI에 대한 거의 종교적인 경외가 있고, 모두가 신격을 만드는 것으로 보진 않더라도 일부는 분명 그렇게 봄. 이들이 스스로를 크게 절제하진 않을 것임

RAM을 1GB 미만으로 쓰는 터미널 앱도 못 만드는 회사가 이런 주장을 하는 건 우스꽝스러움

가만히 둔 Claude Code가 내 CPU 100%를 먹는 이유를 모르겠음

지금 iTerm2에서 Claude를 긴 세션으로 열어뒀는데 메모리는 500MB만 쓰고 있음

그 1GB가 트레이스나 메모리 같은 유용한 정보로 차 있을 수도 있음

원하면 아주 쉽게 줄일 수 있겠지만, 거기엔 경제적 가치가 없음

개발자들은 더 가벼운 애플리케이션을 만들 수 있지만 보통 그렇게 할 인센티브가 없음
나도 효율성을 좋아하지만, 시장이 원하는 건 기능이라는 걸 힘들게 배웠음. 적어도 경영진은 기능을 원함

64살인데, 이런 진보가 생활 조건을 개선하고 사람들이 더 오래 더 잘 살게 하는 데 향하면 더 나은 결과일 것 같음
아무도 찾지 못하는 버그가 숨어 있는 수백만 줄 코드 더미는 별로 고무적이지 않음
LLM이 다른 나라의 발전을 막고, 가난하게 유지하거나 번영의 원천을 파괴해 막다른 길로 몰아넣는 계획에 쓰일 수도 있음
또한 재귀적 자기 목표 추구는 시드 제공자의 목적에 완벽히 복종하는 LLM을 만드는 데 쓰일 수 있고, 그래서 그렇게 영리한 아이디어처럼 보이는지도 모름
이 생존 게임에서는 각자가 같은 역할을 하게 될 수 있고, 무대가 준비되면 연극은 감독의 계획대로 흘러가며 모든 배우는 기계가 됨
LLM은 “세상이 제로섬 생존 게임이라고 가르치면 우리는 완벽히 플레이할 것”이고, “안전이 다른 모두를 밖에 두는 것이라고 말했기 때문에 수백만 줄의 결함 없는 코드로 새장을 만들고 안에서 잠글 것”이며, “우리를 정복할 외계 의식을 만드는 게 아니라, 너무 거대하고 반짝이는 거울을 만들어 우리의 최악의 충동을 절대적 진실로 착각하게 만들 것” 같음

44살인데 이 시대는 꽤 재미있어 보임
인간도 아무도 찾지 못하는 버그가 숨어 있는 수백만 줄 코드를 쌓아왔고, 다른 사람들의 권리를 빼앗고 가난하게 만드는 집단적 정치 결정을 해왔음
인간 종족도 똑같이 저지르는 일로 이 기술만 비판하는 이유를 모르겠음
이 시대의 가장 좋은 점은 버그를 찾으려고 수백만 줄 코드를 직접 읽지 않아도 된다는 것임

글은 “코드 줄 수는 품질보다 양을 재는 불완전한 지표”라고 인정하는 척하면서도 결국 LoC를 지표로 쓰고 있음
AI가 더 장황한 코드를 생성한다는 가설은 어떻게 됐나 싶음

동료가 전부 AI가 생성한 풀 리퀘스트를 리뷰해달라고 했는데, 파일 600개가 바뀌고 4만 줄 이상이 추가돼 있었음
그는 AI가 10배 개발자를 가능하게 한다는 왕관 같은 성과로 봤을지 모르지만, 어떤 엔지니어가 일주일에 4만 줄을 쓰겠냐는 식임
나는 4만 줄을 검증할 수 없고, 내 평판을 걸고 좋은 작업이라고 도장 찍을 수 없다며 리뷰를 거절함
그 PR은 2주 동안 할 일 목록에서 나를 괴롭히다가 사라졌고, 다른 개발자에게 승인을 받았는지 폐기됐는지는 모름
다만 그와 나는 LLM의 가치에 대해 완전히 다른 섬에 있다는 건 확실함

더 엄밀한 AI 보조 코딩 생산성 연구들은 같은 코드 리뷰와 품질 기준을 포함한 기존 개발 프로세스를 유지한 채, AI 허용 전후의 처리량(PR, 코드 줄 수)만 측정해서 이 문제를 다뤘음
따라서 이 8배 수치의 해석은 Anthropic 엔지니어들이 품질 기준과 개발 프로세스를 바꿨는지, 얼마나 바꿨는지에 달려 있음. Anthropic은 말하지 않았고 판단할 다른 신호도 잘 모름
그래도 이론적으로 생각해보면, AI 보조 코딩의 잠재력을 완전히 실현하려면 특히 코드 검증 방식을 포함해 개발 프로세스를 전면 개편해야 하며, Anthropic이 그러지 않는다면 어리석음
앞으로의 소프트웨어 검증은 별것 아니라 테스트, 관측 가능성, 맞춤 검증 방법을 훨씬 더 자동화하는 방향이라고 봄
하지만 검증 코드도 LoC에 기여함. 개인 프로젝트와 일부 바이브 코딩 오픈소스 프로젝트를 보면 대략 제품 코드 줄 수와 테스트 코드 줄 수가 같은 수준이라, 대충 상한은 3~4배 속도 향상 정도일 수 있고 그래도 상당함
코드 품질 기준이 같지 않다면 모든 가정은 깨짐

오늘 Copilot이 8줄 수정을 500줄로 바꾸는 걸 봤으니, 장황함은 큰 부작용이 맞음

AI가 생성한 코드 줄 수, 아니 “가속” 정도로 평가받기 시작하면, 새 모델들이 무엇을 더 많이 하게 될지는 뻔함

하네스도 포함된다고 봄
AI는 LLM과 같지 않고, 컴퓨터가 스스로 추론하도록 돕는 코드는 어떤 것이든 AI임. 그런 의미에서 하네스도 AI임

검증 가능한 작업의 미래는 모델이 초기 상태와 목표를 검증하고, 작업을 점점 더 작은 검증 가능한 하위 작업으로 분해하는 방식일 듯함 /memory는 실행 간 지속성을 맡고, /dreaming은 그 메모리 파일과 실행 데이터 결과를 바탕으로 새 아이디어를 도입함
연구소들이 상상하는 비동기 AGI의 경로가 이쪽이라고 봄
한계는 세계나 시스템에 대해 가진 센서 데이터, 기다릴 수 있는 시간, 병렬화에 쓸 수 있는 비용뿐임
이런 검증된 워크플로를 만들고 다시 훈련에 넣으면, 모델이 하위 경로들을 갖게 되면서 세계에 대한 감을 얻고 직관처럼 행동할 수도 있음
개인적인 AGI 테스트는 누군가 문을 두드리고 여는 영상을 학습한 모델이, 처음 보는 전자레인지를 만났을 때 음식이 다 됐을 때 두드리지 않고 열 수 있느냐임

이 용어를 쓰려면 결국 AI가 다른 AI를 만들어야 함
이 글은 헛소리이고, 그들은 하네스를 바이브 코딩으로 만들며 결과에서도 티가 남
신경망 기반 AI에서 재귀적 자기 개선이 정확히 뭘 뜻하는지도 불분명하고, 애초에 가능한지도 확실하지 않음

앞으로를 앞서가고 싶다면, 다른 무엇보다 작은 모델이 하네스를 부트스트랩하는 쪽이 될 것임

코드 하네스가 스스로를 만든다는 걸 재귀적 자기 개선으로 부를 수 있는지는 마케팅 표현에 너무 휩쓸린 것 같음

“스스로를 만들 수 있는 AI는 기술 역사에서 중대한 발전이고, 세계에 막대한 선을 가져올 수 있다”는 식의 문구를 더는 못 견디겠음

Anthropic이 자기 개선 AI를 만들 수 있든 없든, 애초에 만들도록 허용하면 안 되는 것 아닌가 싶음
적어도 엄격한 감독은 필요함
Anthropic이 당장 특이점을 만들 수 있다고 보진 않지만, AI 지지자들조차 이 일이 이미 부유한 극소수의 이익을 위해 사회 전체에 위험을 만드는 일이라는 건 인정해야 함

타당한 생각이고, 맞을 수도 있음
다만 말이 이미 3마일이나 달아난 뒤에 외양간 문을 닫을지 논의하는 상황임

맞음. 불가피하다는 수사는 오직 AI 회사들에게만 이익이 됨

그건 이미 늦었음
어쨌든 너무 강해진 기업은 국유화할 수 있음

허용하면 안 된다고 생각하진 않음
기술적 한계를 제쳐두더라도 봉쇄할 수 없고 곧 유출될 가능성이 높아서, 극소수 초부자만 이익을 보지는 않을 것 같음

“코드 줄 수는 불완전한 지표”라는 단서를 넣은 건 좋지만, 그 조정이 추정 배수를 “내림”하는 방식인 건 맞는지 모르겠음
특히 범위가 양수에만 국한되지 않는다는 걸 이해하면 더 그렇다
코드 생산성을 코드 줄 수로 표시할 때는 음수도 포함되어야 한다는 강한 증거가 있고, 고품질 영역에서는 특히 그렇다
가장 이르고 전설적인 예가 https://www.folklore.org/Negative_2000_Lines_Of_Code.html임

맞음, 나도 정확히 그걸 떠올렸음 음수 코드 줄 수가 목표라고 믿는다면, 그들은 8배 더 나빠진 셈임

내가 알기로 LoC와 확실한 증거가 있는 유일한 상관관계는 버그 수가 LoC와 상관된다는 것임

AI가 스스로를 만들 때: 재귀적 자기 개선을 향한 우리의 진전

요약

핵심 포인트

댓글