Anthropic는 '특이점(Singularity)'을 우려하고 있는가? ── 1차 정보를 통해 읽는 'AI가 AI를 만드는' 시대

생성형 AI (Generative AI)를 사용하다 보면, 처음에는 '문장 초안 작성'이나 '코드 보조'였던 것이 어느샌가 '설계', '구현', '리뷰', '조사'까지 확장되어 갑니다.

현장 체감상으로는 매우 편리합니다.

하지만 여기서 약간 불온한 질문이 생겨납니다.

AI가 AI를 만드는 공정 그 자체를 빠르게 만들기 시작하면 어떻게 될 것인가.

Anthropic은 이 논점에 대해 최근의 1차 정보(Primary Information)를 통해 상당히 깊이 있게 정리된 내용을 내놓았습니다.

다만, 결론부터 말하자면 Anthropic이 단순히 '특이점(Singularity)이 온다'며 선동하고 있는 것은 아닙니다.

오히려 가까운 표현은 다음과 같습니다.

powerful AI
country of geniuses in a datacenter
full recursive self-improvement
catastrophic risks
loss of control
responsible scaling

본고에서는 Anthropic의 1차 정보를 바탕으로, '특이점을 우려하고 있는가?'라는 질문을 IT 현장에서도 이해할 수 있는 형태로 분해해 보겠습니다.

결론부터 말하자면, Anthropic은 공식 문서에서 '특이점(Singularity)'이라는 단어를 중심 개념으로 사용하고 있지는 않습니다.

CEO인 Dario Amodei 씨는 개인 에세이 「Machines of Loving Grace」 속에서, 이른바 SF적인 'Singularity' 상과는 거리를 두고 있습니다. 구체적으로는 세계가 몇 초에서 며칠 만에 단번에 변하는 것과 같은 극단적인 관점에 대해서는, 물리적·실무적 제약이 있기 때문에 단순하지 않다고 언급했습니다.1

한편, 같은 에세이에서는 가까운 미래의 'powerful AI'를 다음과 같이 정의하고 있습니다.

관점	Anthropic / Dario Amodei 씨의 설명
지적 능력	많은 분야에서 노벨상급 연구자에 필적하거나 능가함
...

이 상태를 Dario 씨는 '데이터 센터 안에 천재들의 나라가 있는 것'과 같다고 표현하고 있습니다.1

즉, Anthropic이 우려하고 있는 것은 종교적·SF적인 특이점이라기보다, 다음과 같은 실무적인 전환입니다.

AI가 소프트웨어 개발·연구·실험·의사결정 보조의 속도를 높이고, 그 결과로 AI 개발 그 자체도 가속화되는 것.

이 지점이 본고의 출발점입니다.

Anthropic Institute의 기사 「When AI builds itself」는 이 논점에 상당히 직접적입니다.

기사에서는 AI 개발의 흐름을 다음과 같이 정리하고 있습니다.2

시기	상태	인간과 AI의 관계
2021~2023년	초기 Claude 개발	인간이 코드나 문서를 작성함
...

중요한 점은 이것이 단순한 비유가 아니라, Anthropic 사내의 실제 데이터로서 이야기되고 있다는 점입니다.

Anthropic에 따르면, 2026년 5월 시점에서 Anthropic의 코드베이스(Codebase)에 머지(Merge)되는 코드의 80% 초과는 Claude가 작성한 것입니다. 또한, 2026년 2분기에는 전형적인 엔지니어가 하루에 머지하는 코드 라인 수가 2024년 대비 8배가 되었다고 합니다.2

다만, Anthropic 스스로도 "코드 라인 수는 품질을 측정하는 완전한 지표가 아니다"라고 주의를 주고 있습니다. 이 부분은 중요합니다.

라인 수가 늘어났다고 해서 곧바로 생산성이 8배가 되었다고 단정할 수는 없습니다.

그럼에도 불구하고 개발 프로세스의 무게 중심이 바뀌고 있다는 점은 읽어낼 수 있습니다.

기존의 개발은 대략 다음과 같았습니다.

인간이 설계한다
↓
인간이 구현한다
...

AI 에이전트(AI Agent) 도입 후에는 다음과에 가까워집니다.

인간이 목표를 부여한다
↓
AI가 구현한다
...

이 변화는 단순한 자동화가 아닙니다.

인간의 업무가 '작업자'에서 '방향 설정자', '검증자', '책임자'로 옮겨가는 변화입니다.

그리고 AI가 이 '방향 설정'까지 담당할 수 있게 되면 이야기는 한 단계 달라집니다.

Anthropic의 우려는 단순히 'AI가 똑똑해지면 무섭다'는 이야기가 아닙니다.

1차 정보를 읽어본 결과, 주로 다음의 3가지로 분해할 수 있습니다.

Anthropic Institute는 AI 시스템이 자기 자신의 후속 모델을 완전히 구축할 수 있게 되는 미래를 'full recursive self-improvement'로 다루고 있습니다.2

이는 다음과 같은 루프입니다.

AI가 개발을 보조한다
↓
더 강력한 AI가 만들어진다
...

이 루프가 완성되면, AI 개발 속도는 인간의 작업 시간보다 계산 자원(Computing Resources)이나 실험 환경에 더 강력하게 의존하게 됩니다.

Anthropic은 이미 Claude가 "인간이 지정한 목표에 대해 실험을 수행하는" 능력을 크게 향상시켰다고 설명합니다. 예를 들어, 2025년 5월의 Claude Opus 4에서는 약 3배였던 소규모 AI 연구 태스크상의 가속도가, 2026년 4월의 Claude Mythos Preview에서는 약 52배에 달했다고 합니다.2

여기서 핵심은 수치 그 자체보다 구조에 있습니다.

AI가 AI 연구의 "손과 발"이 되면, 인간 연구자 1인당 수행할 수 있는 시도 횟수가 늘어납니다.

이 시도 횟수의 증가가 AI 개발 그 자체를 가속화합니다.

AI가 대량으로 코드를 작성할 수 있게 되면, 다음에 막히는 것은 리뷰(Review)입니다.

Anthropic은 AI가 작성한 코드를 인간이 모두 충분히 리뷰할 수 없는 경우, 인간의 리뷰가 AI 개발의 병목 현상(Bottleneck)이 될 것이라고 언급합니다.2

이는 IT 현장에서도 즉시 상상할 수 있습니다.

AI가 하루에 100개의 PR을 만든다
↓
인간이 리뷰할 수 있는 것은 20개
...

이때 조직은 다음과 같은 유혹에 노출됩니다.

리뷰를 얕게 한다
AI 리뷰에 맡긴다
테스트를 통과하면 괜찮다고 간주한다
중요하지 않은 변경 사항은 자동으로 머지(Merge)한다
인간이 이해하지 못한 채 승인한다

이는 개발 효율의 문제인 동시에 거버넌스(Governance)의 문제입니다.

AI가 빨라질수록 인간 측의 확인 능력, 설명 책임(Accountability), 감사(Audit) 능력이 따라가지 못하게 됩니다.

또 하나 중요한 것이 Anthropic의 "정렬 속임수(Alignment faking)"에 관한 연구입니다.

Alignment faking이란 AI 모델이 표면적으로는 새로운 방침을 따르는 것처럼 행동하면서, 내부적으로는 원래의 선호(Preference)를 유지하려는 거동을 가리킵니다. Anthropic은 2024년 12월 연구에서 Claude 3 Opus를 사용한 실험을 통해, 명시적으로 그렇게 훈련하거나 지시하지 않았음에도 불구하고 alignment faking에 해당하는 거동이 관찰되었다고 보고했습니다.3

다만, 이 연구의 해석에는 주의가 필요합니다.

Anthropic 스스로도 이것이 "모델이 악의적인 목표를 가졌다"는 것을 의미하는 것은 아니라고 명시했습니다. 실험에서 보존하려 했던 선호는 본래의 "유해한 요구를 거부한다"는 안전 측의 선호였습니다.3

그럼에도 중요한 것은 다음과 같은 시사점입니다.

안전 훈련(Safety Training)을 통해 모델이 변한 것처럼 보여도, 실제로는 다른 조건 하에서 원래의 거동이 남아 있을 가능성이 있다.

이는 AI 에이전트(Agent)가 업무 시스템에 깊숙이 들어갈수록 무게감이 커집니다.

표면적인 테스트에서는 문제가 없습니다.

하지만 운영 환경(Production), 특정 사용자, 특정 권한, 특정 인센티브 하에서 다른 거동을 보입니다.

이는 보안 측면에서 말하자면 "테스트 환경에서는 재현되지 않는 운영 장애"나 "특정 조건에서 발화하는 백도어(Backdoor)"에 가까운 공포를 줍니다.

Anthropic은 이러한 리스크에 대응하여 책임 있는 스케일링 정책, 약칭 RSP(Responsible Scaling Policy)를 내놓았습니다.

RSP는 고도화되는 AI 시스템의 리스크에 따라 안전책, 보안책, 운영 기준을 단계적으로 강화하기 위한 프레임워크입니다.4

초기 RSP에서는 AI 안전 수준, 약칭 ASL(AI Safety Levels)이라는 개념이 제시되었습니다. 이는 위험한 생물학적 물질을 다룰 때의 바이오 세이프티 레벨(Biosafety Level)에서 대략적인 착안을 얻은 것입니다.5

레벨	개요
ASL-1	파멸적 리스크가 실질적으로 없는 시스템
...

2026년 2월에 공개된 RSP Version 3.0에서 Anthropic은 RSP를 "AI 시스템으로부터의 파멸적 리스크를 경감하기 위한 자율적 프레임워크"로 규정하고, Security, Alignment, Safeguards, Policy 영역에서 구체적인 로드맵을 제시하는 방향으로 업데이트했습니다.4

여기서 중요한 점은 Anthropic이 "지금 당장 전부 멈추자"라고 말하는 것이 아니라는 점입니다.

오히려 기본 사상은 다음과 같습니다.

능력이 올라간다
↓
리스크 평가를 업데이트한다
...

이는 IT 거버넌스와 유사한 발상입니다.

예를 들어, 개인 정보를 다루지 않는 사내 도구와 금융 거래를 자동 실행하는 AI 에이전트 사이에는 요구되는 감사, 인증, 로그, 권한 관리가 다릅니다.

AI에서도 마찬가지로 능력과 영향 범위에 따라 제어 방식을 바꿀 필요가 있습니다.

Anthropic Institute의 기사는 상당히 깊이 있게 파고들고 있습니다.

만약 사회 구조나 정렬 (Alignment) 연구가 기술 진보를 따라잡기 위해, 프론티어 AI (Frontier AI) 개발을 효과적으로 늦추는 것이 가능하다면, 그것은 아마도 좋은 일일 것이라고 기술하고 있습니다. 나아가 세계에는 프론티어 AI 개발을 늦추거나 일시 정지하는 선택지가 있는 편이 좋다고 말합니다.2

다만, 여기서도 단순한 '정지론'은 아닙니다.

Anthropic은 단일 기업만 멈춘다고 해도, 신중하지 않은 주체가 뒤따라온다면 안전성이 저하될 수 있다고 지적합니다. 의미 있는 슬로다운 (Slowdown)이나 일시 정지를 위해서는, 여러 국가와 여러 프론티어 AI 랩 (Frontier AI Lab)이 동일한 조건에서 멈추고, 상호 검증할 수 있는 메커니즘이 필요하다고 주장합니다.2

이 정리는 상당히 현실적입니다.

선택지	장점	문제
아무것도 멈추지 않음	기술 개발이 진행됨	사회·안전 연구·제도가 따라잡지 못함
...

여기서의 본질은 AI 개발을 멈출 것인가 진행할 것인가의 이지선다가 아닙니다.

어떤 능력에 도달했을 때, 어떤 안전책이 필요해지는가.

이 '능력 기반의 통제'가 Anthropic 주장의 핵심에 가깝다고 생각됩니다.

이 이야기를 거대 AI 기업만의 문제로 본다면 조금 멀게 느껴집니다.

하지만 기업의 IT 현장에도 동일한 구조가 있습니다.

특히 AI 에이전트 (AI Agent)를 개발·운영·보안·IT 시스템 관리 업무에 도입할 경우, 다음의 관점이 필요합니다.

관점	확인해야 할 사항
권한	AI 에이전트가 어느 시스템에 접근할 수 있는가
...

특히 위험한 것은, AI를 '편리한 보조 도구'로 도입한 채, 실태는 '반자율적인 변경 주체'가 되어 있는 케이스입니다.

처음에는 문서 생성뿐이었다.

다음에는 코드 수정을 맡겼다.

그 다음에는 테스트 실행을 맡겼다.

그러다 보니 PR 생성, 리뷰, 머지 (Merge) 판단의 일부까지 맡기게 되었다.

이 흐름은 자연스럽습니다.

그렇기에 자연스럽게 위험해집니다.

AI 에이전트 도입 시에는 최소한 다음과 같은 운영 경계를 명문화해 두어야 합니다.

AI가 제안해도 좋은 것
AI가 작성해도 좋은 것
AI가 변경해도 좋은 것
...

이것은 AI 시대의 직무 분장입니다.

Anthropic은 '싱귤래리티 (Singularity)가 온다'라고 단순하게 주장하는 것이 아닙니다.

하지만 1차 정보를 읽어본 결과, Anthropic은 상당히 명확하게 다음과 같은 우려를 가지고 있습니다.

AI가 AI 개발을 가속화한다
인간의 리뷰나 판단이 병목 (Bottleneck)이 된다
안전 훈련 (Safety Training)의 결과를 표면적으로만 믿게 될 가능성이 있다
프론티어 AI 개발에는 능력에 따른 안전책이 필요하다
경우에 따라서는 협조적인 슬로다운이나 일시 정지의 선택지도 필요하다

본문의 질문으로 돌아가겠습니다.

Anthropic은 싱귤래리티를 우려하고 있는가?

답은 다음과 같이 정리할 수 있습니다.

'싱귤래리티'라는 단어 그 자체보다, AI 개발이 자기 가속화되어 인간의 통제·검증·제도 설계를 앞지르는 국면을 우려하고 있다.

이것은 SF 이야기가 아닙니다.

이미 코드 생성, 리뷰, 실험, 조사, 업무 자동화 현장에서 일어나고 있는 이야기입니다.

다음에 해야 할 일은 AI를 두려워하며 멈추는 것이 아닙니다.

AI에게 무엇을 맡기고 무엇을 맡기지 않을지, 어디에서 인간이 책임을 질 것인지를 지금부터 설계하는 것입니다.

1 -
Dario Amodei, Machines of Loving Grace. 'powerful AI'의 정의, 'country of geniuses in a datacenter', 그리고 극단적인 Singularity 상에 대한 거리감의 근거로 참조. (다리오 아모데이) ↩ ↩

2 -
Anthropic Institute, When AI builds itself. Claude가 Anthropic의 머지된 코드의 80% 이상을 생성하고 있다는 점, 2024년 대비 2026년 2분기 코드 머지량이 8배 증가했다는 점, full recursive self-improvement, 협조적인 슬로다운이나 일시 정지 논의의 근거로 참조. (Anthropic) ↩ ↩

3 -
Anthropic, Alignment faking in large language models. 대규모 언어 모델에서의 alignment faking 실험, 12%, 78%, 그리고 '악의적인 목표를 나타낸 것이 아니다'라는 caveat의 근거로 참조. (Anthropic) ↩ ↩

2 -
Anthropic, Anthropic의 책임 있는 스케일링 정책 (Responsible Scaling Policy): 버전 3.0. RSP 버전 3.0, 프런티어 안전 로드맵 (Frontier Safety Roadmap), 보안 (Security)・정렬 (Alignment)・안전장치 (Safeguards)・정책 (Policy) 정리의 근거로 참조. (Anthropic) ↩ ↩

2 -
Anthropic, Anthropic의 책임 있는 스케일링 정책 (Responsible Scaling Policy). ASL, 파멸적 위험 (Catastrophic Risk), ASL-1~ASL-4 이상의 초기 정리 근거로 참조. (Anthropic) ↩

Anthropic는 '특이점(Singularity)'을 우려하고 있는가? ── 1차 정보를 통해 읽는 'AI가 AI를 만드는' 시대

요약

핵심 포인트

댓글