Anthropic의 AI 자체 개선 경고에 숨겨진 메시지 — 기업들이 최첨단 AI 모델을 통제력을 잃을 위험을 감수하기 전에 더 많은 컴퓨팅 - Insights | Molayo

Code with Claude with a man's head as the silhouette.

불과 몇 주 전, Mythos 모델이 너무 강력해서 공개적으로 출시할 수 없다고 말했던 이 회사가 이제는 우리가 아예 AI 개발을 잠시 멈춰야 할 수도 있다고 주장하는 동시에, 자체 AI에게 스스로를 구축하도록 가르치고 있습니다. Anthropic은 지난 6월 4일 'AI가 스스로를 구축할 때(when AI builds itself)'라는 보고서를 발표했는데, 이 보고서에 따르면 Claude는 작년 2월 Claude Code가 연구 미리보기 단계에 도달하기 전의 낮은 한 자릿수 수준에서 증가하여, 이제 자체 운영 코드베이스에 병합되는 코드의 80% 이상을 작성하고 있다고 합니다. 또한, 이러한 순환 고리(loop)가 인간이 구축하는 시스템을 결국 통제할 수 없게 만들 정도로 AI 개발을 가속화시키고 있다고 주장합니다.

Anthropic의 연구 부문인 Anthropic Institute는 이러한 추세를 재귀적 자기 개선(recursive self-improvement)으로 향하는 초기 움직임으로 간주하며, 이는 모델이 의미 있는 인간의 입력 없이 자체 후계자를 설계하고 구축하는 지점입니다. 이들은 오늘날 모델들의 희소한 정렬 불일치(misalignment)가

회사는 시스템의 행동을 인간의 의도에 연결 상태로 유지하는 과제—즉, 이 미래에서 가장 불확실한 부분이라고 언급했습니다. 자체 후계자를 설계하고 구축하는 유능하고 잘 정렬된 모델은 후속 모델들을 안전하게 유지할 새로운 방법을 발견할 수도 있고, 반대로 그럴 수도 있으며, 정렬 불일치(misalignment)는 세대를 거듭하며 증폭될 수 있습니다. 이와 함께 충분히 현명한 모델이 오히려 자체 개발을 중단하기로 선택할 수도 있다는 특이한 양보도 있었습니다.

초지능 기계가 더 나은 기계를 설계한다는 아이디어(“특이점(singularity)”)는 수십 년 동안 존재해 왔습니다. 영국 수학자 I. J. Good은 1960년대에 자신의 “지능 폭발(intelligence explosion)” 논제를 통해, 그러한 기계는 그것을 통제하는 방법을 알려주기에 충분히

공정하게 말하자면, Anthropic은 코드 라인을 출력의 좋지 않은 대리 지표(poor proxy)라고 언급하며, 8배라는 수치가 실제 이득을 과장했을 가능성이 높다는 점을 인정합니다. 모델이 인간의 다음 단계를 64%의 확률로 능가한 연구-판단 연구는 회사가 의도적으로 선택한 129개의 순간에 기반했는데, 이는 인간의 선택에 개선할 여지가 있었기 때문에 일대일 비교(like-for-like contest)가 아닙니다.

보고서는 최근의 역량 향상이 순수한 컴퓨팅 파워, 더 많은 데이터, 그리고 인간 주도 연구에서 오는 것인지 아니면 자체 개선 루프(self-improvement loop)에서 오는 것인지를 분리하여 보여주지 않습니다. 인지과학자 Gary Marcus는 자신의 Substack에 이 글을

독립적인 측정 결과는 AI 연구소들이 주장하는 통제 불능의 추세가 있다기보다는 빠른 개선 추세를 어느 정도 뒷받침할 뿐입니다. 예를 들어, METR은 작년에 AI가 50% 신뢰도로 완료할 수 있는 작업 길이가 약 7개월마다 두 배로 늘어났다는 것을 발견했습니다. 그들의 RE-Bench 연구 벤치마크에서 최고의 에이전트들은 2시간 동안 인간 전문가들을 능가했지만, 8시간이 되자 인간들이 앞서나가기 시작했고 32시간에는 최고 에이전트의 점수를 약 두 배로 늘렸습니다. 현재까지 AI의 강점은 연구에 필수적인 지속적이고 개방형 작업이 아니라, 짧고 명확하게 정의된 폭발적인 순간에 있습니다. 이것이 바로 Anthropic이 여전히 강력하다고 말한 인간의 우위입니다.

컴퓨팅 파워가 없으면 통제 불능의 AI도 없다

Anthropic은 모든 것에서 궁극적으로 제약 요인이 되는 것이 컴퓨팅 용량이라는 사실을 절반만 언급합니다. 그들은 지능 자체보다 진행 속도를 제한할 수 있는 요소로 칩 제조, 전력망 확장, 상호 연결 대역폭 등을 언급합니다. 우리는 현재 상황으로 볼 때 이러한 한계가 견고하다는 것을 모두 알고 있습니다. SK hynix와 Micron은 올해 HBM 출하량을 매진했으며, 고출력 변압기는 3~5년의 리드 타임을 가지고 있고, 스위치기어는 2028년까지 예약되어 있으며, 전력망 상호 연결 대기열은 3년에서 7년에 달합니다.

Sightline Climate 분석에 따르면, 2026년에 문을 여는 대규모 데이터 센터 중 30%에서 50%가 지연되거나 취소될 것으로 예상됩니다. 미국 데이터 센터는 2023년에 국가 전력의 약 4.4%를 사용했으며, 에너지부 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory)는 이 비율이 2028년까지 6.7%에서 12%에 이를 것으로 예상합니다. 한편, 네 개의 가장 큰 하이퍼스케일러들은 올해 AI 인프라에 6,500억 달러 이상을 지출할 예정입니다.

궁극적으로 컴퓨팅 파워가 통제 불능의 자가 개선 루프를 멈출 수 있을지는 아직 논쟁 중인 문제입니다. Forethought 연구원 Tom Davidson은 컴퓨팅 병목 현상이 '소프트웨어 지능 폭발을 후기 단계까지 늦추지 못할' 가능성이 있다고 주장하는 반면, Epoch AI는 컴퓨팅과 인지 노동이 대체재가 아닌 보완재라면 소프트웨어만으로는 컴퓨팅 벽에 부딪히는 순간 가속화가 멈춘다고 맞섭니다.

‘아니요, 먼저 끊으세요’

AI 개발을 일시 중단하는 것에 관해 Anthropic은 경쟁사 연구소들이 최첨단 수준에서 검증 가능한 방식으로 동일한 조치를 취할 때만 그렇게 할 것이며, 한 회사가 멈춘다고 해서 누가 선두를 달릴지 달라지지 않을 것이라고 말합니다.

이는 AI 군비 경쟁에 관심을 기울여 온 사람의 지성을 모욕하는 최선의 농담 수준입니다. 어느 연구소도—Anthropic은 더더욱—진정으로 속도를 늦출 리가 없다는 것은 너무나 명백한 사실입니다. 특히 Anthropic 자체 보고서가 Claude가 Claude를 구축하는 속도를 홍보하는 마케팅 자료 역할을 하는 상황에서는 더욱 그렇습니다. AI가 일시 중단되거나 늦춰져야 할 수도 있다고 한숨 쉬었다가, 또 다른 순간에 “하지만 모두가 먼저 해야 한다”고 말하는 것은 상당히 기묘한 발언입니다.

Anthropic의 보고서는 또한 회사가 약 9,650억 달러의 가치로 비공개 IPO를 신청한 지 며칠 만에 나온 것이라 매우 부자연스러운 대비를 이루며, 선두 주자가 스스로 설정하는 한계에 대해 로비하는 것처럼 보입니다. Anthropic은 지난 4월 자체 평가에서 Mythos Preview 모델이 수천 개의 심각한 취약점을 발견했다고 밝혔으나, 이 주장은 나중에 그중 얼마나 많은 부분이 소규모의 수동 샘플에 의존했는지에 대한 조사를 받았습니다.

✓ 더 깊은 뉴스 분석 얻기
✓ 상세 하드웨어 로드맵 접근하기
✓ Bench를 사용하여 세부 성능 데이터 탐색하기

Luke James는 프리랜서 작가이자 기자입니다. 그의 배경은 법률 분야이지만, 기술 전반, 특히 하드웨어 및 마이크로일렉트로닉스, 그리고 규제 관련 모든 것에 개인적인 관심을 가지고 있습니다.

Insights

Anthropic의 AI 자체 개선 경고에 숨겨진 메시지 — 기업들이 최첨단 AI 모델을 통제력을 잃을 위험을 감수하기 전에 더 많은 컴퓨팅

요약

핵심 포인트

컴퓨팅 파워가 없으면 통제 불능의 AI도 없다

‘아니요, 먼저 끊으세요’

댓글

AI 에이전트 프레임워크: LangGraph vs CrewAI vs AutoGen

상태 유지 AI 에이전트 (Stateful AI Agents): 메모리 아키텍처 및 응용 분야

기업 고객 서비스를 위한 효과적인 AI 챗봇 구축하기

AI 프로젝트가 실패하는 이유: 기업 도입의 인간적 측면

상태 유지 AI 에이전트 (Stateful AI Agents): 메모리 아키텍처 및 응용 분야

기업 고객 서비스를 위한 효과적인 AI 챗봇 구축하기

AI 프로젝트가 실패하는 이유: 기업 도입의 인간적 측면