AI의 속도를 늦추기 위해 설립된 연구소가 이제 속도를 늦추는 것이 역효과를 낼 수 있다고 말하다

Anthropic의 재귀적 자기 개선 (recursive self-improvement) 에세이는 단순한 "AI 중단"을 의미하지 않습니다. 이는 검증할 방법이 없는 일방적인 일시 정지가 가장 주의 깊지 않은 플레이어들에게 프런티어 (frontier)를 넘겨줄 수 있다는 경고입니다.

Anthropic의 프로덕션 코드베이스 (production codebase)에 병합된 코드 라인의 80% 이상이 이제 AI 스스로 작성하고 있습니다.

이 수치는 Anthropic이 Anthropic에 대해 밝힌 것입니다. 2025년 초만 해도 이 수치는 한 자릿수에 불과했습니다. 오늘날 이 수치는 80%를 넘어섰으며, 그곳의 일반적인 엔지니어는 이제 2024년에 비해 하루에 약 8배 더 많은 코드를 병합합니다. 또한 Anthropic 자체의 Claude Code 세션 내에서 모델은 인간의 수정 없이 가장 개방적인 작업의 약 76%를 완료합니다. 이 도구는 이제 도구를 만드는 회사를 구축하고 있습니다.

당연한 반응은 움찔하는 것입니다. 즉

이 중 그 어느 것도 특이점 (Singularity)은 아닙니다. 하지만 이들을 쌓아 올리면 하나의 곡선이 그려지며, 그 곡선은 단 한 가지를 가리킵니다. AI가 AI를 만드는 특정한 작업에 능숙해지고 있다는 사실입니다.

루프 (The Loop)

이것이 바로 공상과학 (Science-fiction)의 겉치레를 벗겨낸 '재귀적 자기 개선 (Recursive self-improvement)'의 의미입니다. 로봇의 반란이 아닙니다. 피드백 루프 (Feedback loop)입니다. AI 시스템이 연구, 코딩, 의사결정 작업을 충분히 수행하여 스스로의 후계자를 설계하고 개선하기 시작하며, 각 후계자는 다음 후계자를 설계하는 데 있어 조금씩 더 나아지는 과정입니다.

이것을 막연한 미래가 아닌 지금 당장 진지하게 받아들여야 하는 이유는, 그 루프에 들어가는 모든 입력 요소가 이미 판 위에 올라와 있기 때문입니다. 코드가 작성되고 있습니다. 벤치마크 (Benchmarks)는 포화 상태에 이르고 있습니다. 연구 방향이 결정되고 있으며, 대개는 매우 잘 결정되고 있습니다.

Anthropic은 이 상황이 전개될 세 가지 방식을 제시합니다.

추세의 정체. 역량이 정체기에 접어들고, AI가 유용한 도구로서 어디에나 확산되지만, 완전한 자율성에는 결코 도달하지 못합니다. 그들은 이를 가능성이 가장 낮은 시나리오로 평가합니다.

추세의 지속. 인간이 계속해서 방향을 설정하지만, 100명 규모의 팀이 10,000명의 몫을 해냅니다. 이것이 그들의 기본 시나리오 (Base case)입니다.

완전한 재귀적 자기 개선. AI가 처음부터 끝까지 자신의 후계자를 설계하며, 인간은 감독 역할로 이동합니다. 불확실하지만, 그들이 무시하기에는 충분히 그럴듯한 시나리오입니다.

역전 (The Reverse)

이 지점에서 이 글은 안전 연구소 (Safety lab)에 대해 모두가 예상하는 시나리오를 뒤집습니다.

속도를 늦추고, 브레이크를 밟고, 시간을 벌어야 한다는 본능적인 반응에는 Anthropic의 표현을 빌리자면 '함정'이 숨어 있습니다.

만약 속도 조절이 단순히 가장 주의 깊지 않은 행위자들이 기술적으로 따라잡을 수 있는 시간만 벌어다 준다면, 결과적으로 모두를 덜 안전하게 만들 수 있습니다.

논점은 "AI가 위험하니 멈춰라"가 아닙니다. 문제는 _멈추는 것 그 자체_가 또 다른 위험이 될 수 있다는 점입니다. 만약 안전에 가장 집착하는 연구소들이 일방적으로 브레이크를 밟는다면, 발생하는 유일한 현상은 격차가 줄어드는 것뿐입니다. 그리고 그 격차는 결과(consequences)에 대해 가장 신경을 쓰지 않는 쪽에게 유리하게 좁혀집니다. 더 안전한 세상이 오는 것이 아닙니다. 더 나쁜 운전자가 이끄는 똑같은 경주가 계속될 뿐입니다.

이것이 AI 안전 (AI-safety) 논의의 핵심에 있는 역설입니다. 책임감 있게 느껴지는 본능인 _그저 속도를 늦추는 것_이, 만약 당신 혼자만 그렇게 하고 있다면 오히려 무책임한 행동이 될 수 있습니다.

아직 존재하지 않는 브레이크

그렇다면 정답이 "멈춤"이 아니라면, 무엇일까요?

Anthropic의 답은 속도가 아닙니다. 그것은 하나의 선택지입니다:

프런티어 AI (frontier AI) 개발을 늦추거나 일시적으로 중단할 수 있는 선택권이 세상에 있다면 좋을 것입니다.

이 차이가 전부입니다. 그들은 모든 이에게 브레이크를 밟으라고 요구하는 것이 아닙니다. 그들은 현재 당겨서 사용할 수 있는 브레이크가 없다는 점, 즉 모든 진지한 연구소들이 중단할 때가 되었다는 데 동의하더라도 속도를 늦출 수 있는 공유된 신뢰할 수 있는 메커니즘이 없다는 점을 지적하고 있습니다. 그들이 주장하는 작업은 그 메커니즘이 필요한 순간이 오기 _전_에 미리 구축하는 것입니다:

검증 인프라 (Verification infrastructure) — 특정 연구소나 국가가 비밀리에 프런티어 개발을 추진하고 있는지 탐지할 수 있는 능력입니다. 그래야만 중단 선언이 단순한 발표에 그치지 않고 실제로 신뢰받을 수 있습니다.
신뢰할 수 있고 조율된 중단 메커니즘 (Credible, coordinated pause mechanisms) — 단일 연구소가 오늘 일방적으로 멈춘다고 해도 얻을 수 있는 것은 거의 없기 때문입니다. 핵심은 다른 이들도 동참할 수 있을 만큼 공유된 속도 조절이 충분히 신뢰할 수 있게 만드는 작업입니다.
여러 국가에 걸쳐 프런티어 근처에 위치한, 충분한 자원을 가진 다수의 연구소 — 그래야만 조율이 가능해집니다. 한 국가의 한 연구소만 중단하는 것은 보여주기식 연극에 불과합니다.
재귀적 자기 개선 (recursive self-improvement)보다 앞서 도달하는 정렬 연구 (Alignment research) — 왜냐하면 다음 모델을 만드는 모델까지 살아남는 드문 정렬 실패 (misalignment)는 더 이상 드물게 머물지 않고, 복리로 증폭되기 때문입니다.

그들이 인용하는 역사적 운율은 군비 통제 (arms control)입니다. 아무도 상대방을 신뢰했기 때문에 무장을 해제한 것이 아닙니다. 검증 (verification)이 신뢰를 불필요하게 만들었기 때문에 무장을 해제한 것입니다. 브레이크가 작동했던 이유는 모두가 브레이크가 당겨지는 것을 볼 수 있었기 때문입니다.

이것이 우리에게 의미하는 바

이것을 연구소 정치 (lab-politics) — 즉, GPU 예산과 정책 팀을 가진 사람들에게나 중요하고 다른 누구에게는 중요하지 않은 종류의 일 — 로 치부하고 싶은 유혹이 생길 수 있습니다.

하지만 그것은 잘못된 해석입니다. Anthropic이 설명하고 있는 메커니즘은 이미 여러분에게 전달되었습니다. 80퍼센트라는 숫자는 예측이 아닙니다. 그것은 구조적으로 많은 소프트웨어 팀이 곧 마주하게 될 모습과 닮아 있는 한 기업의 상태 업데이트입니다. 인간은 검토자 (reviewer)가 됩니다. 인간은 더 이상 직접 수행하지 않는 작업의 방향을 설정하는 존재가 됩니다. 병목 현상 (bottleneck)은 조용히 '작성'에서 '확인'으로 이동합니다. 그리고 확인은 기계가 대부분의 경우 정답을 맞히고, 당신이 기계가 틀린 사례들을 읽는 것을 중단할 때 바로 퇴화하는 근육입니다.

이 글의 진짜 질문은 AI가 스스로를 개선할 것인가가 아닙니다. 현재의 기울기로 볼 때, 그 버전의 일부는 이미 진행 중입니다. 질문은 우리가 자동차가 멈출 수 있을 만큼 충분히 느릴 때 브레이크를 구축할 것인가 하는 점입니다.

가장 위험한 경계에 근접한 연구소 중 하나는 우리에게 되돌아가라고 말하고 있지 않습니다. 그들은 아직 브레이크 페달이 없다고 말하고 있으며, 속도를 줄일지 말지에 대해 논쟁하는 대신 속도를 줄일 수 있게 해주는 장치를 만드는 대신 왜 여전히 논쟁만 하고 있는지 묻고 있습니다.

만약 당신이 프런티어 모델 (Frontier Models), 정렬 (Alignment), 또는 AI 거버넌스 (AI Governance) 분야에서 일하고 있거나 — 혹은 당신의 업무가 글쓰기에서 검토로 조용히 변화하는 것을 목격했다면 — 실제 병목 지점 (Chokepoint)이 어디라고 생각하는지 궁금합니다. 검증 (Verification)? 조정 (Coordination)? 아니면 정렬 연구 (Alignment Research) 그 자체인가요? 답글을 남기거나 DM을 보내주세요.

출처: Anthropic — Recursive Self-Improvement

AI의 속도를 늦추기 위해 설립된 연구소가 이제 속도를 늦추는 것이 역효과를 낼 수 있다고 말하다

요약

핵심 포인트

루프 (The Loop)

역전 (The Reverse)

아직 존재하지 않는 브레이크

이것이 우리에게 의미하는 바

댓글