AI가 AI를 만들기 시작할 때, 일시 중단 논쟁은 현실이 된다

Anthropic은 경쟁의 내부에서 나온 가장 중요한 AI 거버넌스(AI governance) 포스트 중 하나를 2026년에 발표했습니다. 한 프런티어 연구소(frontier lab)는 자사의 모델이 어떻게 자체적인 작업을 이미 가속화하고 있는지 설명하며, 이 루프(loop)가 훨씬 더 긴밀해질 때 어떤 일이 벌어질지 질문을 던졌습니다.

핵심 아이디어는 재귀적 자기 개선(recursive self improvement)입니다. 쉽게 말해, AI 시스템이 인간의 노동력을 거의 투입하지 않고도 다음 시스템을 설계, 구축, 테스트 및 개선하는 데 도움을 줄 수 있는 순간을 의미합니다. Anthropic은 그 시점이 아직 미래에 있으며 불확실하다고 말합니다. 불편한 부분은 그 기울기가 이미 그 방향으로 꺾이고 있다는 증거입니다.

가장 강력한 신호는 코드입니다. 2026년 5월 기준으로, Anthropic은 자사의 프로덕션 코드베이스(production codebase)에 병합된 코드의 80% 이상이 Claude에 의해 작성되었다고 밝혔습니다. 2025년 2월 Claude Code가 리서치 프리뷰(research preview)에 진입하기 전까지 그 비중은 한 자릿수 초반이었습니다. 또한 이 회사는 일반적인 Anthropic 엔지니어가 현재 분기당 배포하는 코드의 양이 2021년부터 2025년 사이의 엔지니어들보다 약 8배 더 많다고 말합니다. 코드 라인 수는 대략적인 측정 방식이지만, 그 방향성은 무시하기 어렵습니다. 병목 현상(bottleneck)은 타이핑에서 무엇을 구축할지 지시하고, 검토하고, 결정하는 단계로 이동했습니다.

이러한 변화는 모델 개발이 루프로 가득 차 있기 때문에 중요합니다. 코드를 작성하고, 실험을 실행하고, 실패를 조사하고, 인프라를 조정하고, 결과를 비교하고, 계획을 다시 쓰고, 이를 반복합니다. 만약 모델이 각 루프를 압축할 수 있다면, 진보는 복리로 쌓입니다. Anthropic은 Claude가 개방형 코딩 작업(open ended coding tasks)에서 훨씬 더 뛰어나졌으며, 2026년 5월 가장 어려운 내부 카테고리에서 76%의 성공률에 도달했다고 보고했습니다. 작은 연구 스타일의 최적화 작업에서, 성능은 2025년 5월 약 3배 빠른 코드에서 Mythos Preview를 통해 2026년 4월까지 약 52배 빠른 코드로 향상되었습니다. 이러한 수치들은 회사가 보고한 증거로 취급되어야 하지만, 그럼에도 프런티어 연구소들이 내부에서 무엇을 주시하고 있는지를 보여줍니다.

진정한 질문은 판단력(judgment)입니다. 코드를 작성하고 테스트를 실행하는 것은 이제 많은 기술적 워크플로우에서 쉬운 부분에 속합니다. 문제를 선택하고, 어떤 결과가 중요한지 파악하며, 측정값이 오해의 소지가 있는지 결정하고, 막다른 길을 인식하는 일은 여전히 인간의 영역으로 남아 있습니다. Anthropic은 이를 강력한 AI 보조(AI assistance)와 완전한 재귀적 자기 개선(recursive self-improvement) 사이의 남은 격차로 규정합니다. 만약 이 격차가 좁혀진다면, 프런티어 개발(frontier development)에서 인간의 역할은 건설자(builder)보다는 가상 연구소의 검토자(reviewer), 감사자(auditor), 그리고 관리자(governor)에 더 가까워질 것입니다.

이것이 바로 Anthropic이 프런티어 개발의 조정된 속도 저하(coordinated slowdown) 또는 일시적 중단(temporary pause) 옵션을 촉구한 이유입니다. 표현 방식이 중요합니다. 단일 기업이 독자적으로 중단한다면 주로 경쟁사들에게 이점을 넘겨주게 될 것입니다. 의미 있는 중단이 이루어지려면 여러 국가의 자금력이 풍부한 여러 연구소들이 동일한 조건에 합의하고, 타인이 이를 준수하는지 확인하며, 무엇이 중단을 유발하는지 정의하고, 무엇이 중단을 종료하는지 정의하며, 숨겨진 행위자가 앞서 나가는 것을 방지해야 합니다. Reuters는 이를 조정되고 검증 가능한 계획(coordinated and verifiable plan)이라고 강조했습니다. Scientific American은 정치적 어려움을 부각하며, 비판론자들이 이 제안을 비현실적이거나, 심지어 선도적인 연구소가 자신의 이점을 유지하면서 규제를 형성하려는 수단으로 보고 있다고 언급했습니다.

두 가지 반응 모두 동시에 사실일 수 있습니다. 위험은 심각할 수 있으며, 제안된 거버넌스(governance) 경로는 여전히 매우 어려울 수 있습니다. 학습 실행(training runs)은 기존의 많은 전략적 기술들보다 숨기기가 더 쉽습니다. 컴퓨팅(Compute), 인재(talent), 모델 가중치(model weights), 데이터 파이프라인(data pipelines), 그리고 프라이빗 인프라(private infrastructure)는 여러 기업과 국가에 분산되어 있습니다. 중단 기간 동안 이탈하려는 유인(incentive)은 엄청날 것인데, 왜냐하면 남겨진 주자가 프런티어(frontier)를 물려받을 수 있기 때문입니다. 검증할 수 없는 중단은 보여주기식 행위(theater)가 됩니다. 브레이크가 없는 경주는 대중에게 결과적 영향을 미치는 도박이 됩니다.

따라서 AI 자기 개선 (AI self-improvement)의 실질적인 의미는 공상 과학과 일반적인 소프트웨어 발전 사이 어딘가에 위치하며, 즉각적인 운영상의 이해관계가 걸려 있습니다. 이는 프런티어 AI (frontier AI)를 사용하는 모든 조직이 더 강력한 검토 루프 (review loops)를 갖춰야 함을 의미합니다. 즉, 모델이 생성한 작업에 대한 감사 추적 (audit trails), 긴 과업을 테스트하는 평가 스위트 (evaluation suites), 연구 주장(research claims)에 대한 출처 (provenance), 자율 에이전트 (autonomous agents)를 위한 제어 장치, 그리고 속도가 이해의 범위를 넘어섰는지 질문하는 것이 직업인 사람들이 필요함을 의미합니다. 인간의 병목 현상 (human bottleneck)은 가시성을 유지하면서도 더 상위 단계로 이동해야 합니다.

연구자와 기술 작가들에게 이 새로운 워크플로우는 지식 생산을 둘러싼 도구들 또한 변화시킵니다. ChatGPT는 흩어진 소스 노트들을 구조화된 논증으로 바꾸고 출판 전 취약한 가정을 드러내는 데 도움을 줄 수 있습니다. Miss Formula는 AI 연구 자료가 초안으로 넘어갈 때 수식 이미지를 사용 가능한 수식으로 변환할 수 있습니다. Editable Figure는 AI가 생성한 논문 그림을 편집 가능한 벡터 그래픽으로 변환할 수 있으며, 이는 다이어그램의 수정, 번역 또는 세심한 동료 검토 (peer review)가 필요할 때 중요합니다. 이러한 도구들은 더 큰 패턴의 작은 예시들입니다. AI는 작업을 가속화하며, 인간은 AI가 남긴 결과물 (artifacts)을 검사할 더 나은 방법이 필요합니다.

Anthropic의 입장에서 가장 어려운 부분은 연구소들이 역량 (capability)을 구축하는 속도보다 사회가 조율 (coordination)을 더 빠르게 구축할 것을 요구한다는 점입니다. 이는 거의 불가능하게 들릴 수도 있지만, 그 대안은 기술적 루프 (technical loop)가 이미 닫힌 후에 거버넌스 (governance) 문제를 발견하는 것입니다. 더 나은 대응은 긴급함과 규율을 결합하는 것입니다. 이는 재귀적 자기 개선 (recursive self-improvement)을 프런티어 과학 (frontier science) 문제가 되기 전, 단기적인 관리 문제로 취급하는 것입니다. 세상에는 외부인이 신뢰할 수 있는 측정 지표, 헤드라인이 강요하기 전에 행동할 수 있는 기관, 그리고 다른 모든 이들이 이해관계 (stakes)를 파악할 수 있도록 내부의 가속화 과정을 충분히 공개할 의지가 있는 AI 연구소들이 필요합니다.

AI가 AI를 만들기 시작할 때, 일시 중단 논쟁은 현실이 된다

요약

핵심 포인트

댓글