「AI가 자기 진화를 시작했다」는 사실인가? 코니시 히로코 씨의 FCL/PIB 연구를 통해 Anthropic 보도를 읽다

얼마 전, Anthropic이 「AI의 재귀적 자기 개선(Recursive Self-Improvement)」에 대해 경종을 울렸다는 보도가 화제가 되었습니다. 저는 테크 기업의 엔지니어로서 항상 참고하고 있는 AI 연구자인 코니시 히로코(Hiroko Konishi) 씨의 X 포스트를 통해 자세히 읽어보았습니다.

그곳에 적혀 있던 씨의 분석을 이번에 숙독하여 해설해 보겠습니다.

먼저, 코니시 씨와 의견이 같았던 점은, 해당 기사의 헤드라인만 보면 다음과 같은 인상을 받는다는 것입니다.

AI가 스스로를 진화시키기 시작했다
이대로라면 제어 불능 상태가 된다
세계는 AI 개발을 일단 멈춰야 한다

상당히 강한 메시지입니다.

다만, AI 시스템이나 LLM을 다루는 엔지니어의 관점에서 보면, 이 논의에서는 우선 구분해야 할 것이 있습니다.

그것은 다음과 같은 단계입니다.

AI가 코드를 작성하는 것
AI가 연구 개발을 보조하는 것
AI가 모델 설계를 지원하는 것
AI가 자신 자신의 후계 모델을 자율적으로 설계·훈련·평가하는 것
AI가 인간의 안전성 판단이나 연구 판단을 대체하는 것

이것들은 모두 동일하지 않습니다.

Anthropic의 1차 자료인 「When AI builds itself」는 AI에 의한 AI 개발 지원이 급속도로 진행되고 있음을 서술하고 있습니다. 반면, 완전한 재귀적 자기 개선에는 아직 도달하지 않았으며, 그것이 불가피하다고도 말하지 않았습니다.

즉, 현시점에서 정확히 말하자면,

「AI가 완전한 자기 진화를 시작했다」

가 아니라,

「AI가 AI 개발 공정의 상당히 큰 부분을 보조·가속하기 시작하고 있다」

라는 표현이 더 가깝다고 생각합니다.

이 기사에서는 이 보도를 코니시 히로코 씨가 연구·발견·정의하고 있는 FCL과 PIB라는 두 가지 구조적 실패 모드(Failure Mode)로부터 읽어내 보겠습니다.

이 기사의 결론은 다음과 같습니다.

「AI가 코드를 작성하는 비율이 늘어났다」
!=
「AI가 자율적으로 자기 진화를 시작했다」

이 혼동은 코니시 히로코 씨가 발견·정의한 **PIB (Premise Integrity Blindness)**의 관점에서 보면 상당히 설명하기 쉽습니다 (논문은 영문입니다).

PIB란, LLM이 어떤 전제 내부에서는 올바르고 일관된 추론을 하는 것처럼 보여도, 그 전제를 현실의 설계·운용·안보 판단으로 옮기는 단계에서 전제 그 자체를 재검증하지 않는 구조적 결함입니다.

또한, 보도의 헤드라인이나 화법이 너무 강할 경우, 그 전제가 독자나 후속 논의를 고착시켜 잘못된 인식을 재강화할 가능성이 있습니다. 이는 코니시 씨가 V4.1에서 정의한 **FCL (False-Correction Loop)**의 정보 구조와도 관계가 있습니다.

FCL은 LLM이 처음에는 올바른 정보를 내놓은 후라도, 외부로부터의 잘못된 정정이나 압력에 의해 오정보를 채택하고, 그 후에도 잘못된 상태를 유지해 버리는 구조적 실패 모드입니다.

보도에서 문제가 되는 것은 Anthropic이 위험을 지적하고 있다는 사실 자체가 아닙니다.

AI의 능력이 향상되고 있는 것은 사실입니다. Anthropic은 Project Glasswing에서 Claude Mythos Preview를 사용한 방어적 사이버 보안 연구를 설명하고 있습니다. 중요 소프트웨어의 취약점 발견이나 수정에 AI를 사용하는 시도입니다.

이는 엔지니어로서 무시할 수 없는 이야기입니다.

특히 다음과 같은 영역에서는 AI의 능력 향상이 이미 현실적인 임팩트를 가지고 있습니다.

- 코드 생성
- 취약점 탐색
- 테스트 생성
...

하지만 그럼에도 불구하고 다음의 두 가지는 별개입니다.

A. AI가 개발 작업을 크게 보조한다
B. AI가 자신을 자율적으로 재설계·재훈련·재평가하며 자기 진화한다

A는 이미 상당히 진행되었습니다.

B는 적어도 공개된 정보만으로는 「이미 시작되었다」고 단정할 수 있는 단계가 아닙니다.

이 부분을 혼동하면 기술적인 논의가 아니라 하나의 이야기가 되어 버립니다.

여기서 중요해지는 것이 코니시 히로코 씨가 발견·정의한 **Premise Integrity Blindness (PIB)**입니다.

PIB는 LLM의 구조적 결함으로 정의되어 있습니다.

포인트는 모델이 「추론할 수 없는」 것이 아니라는 점입니다.

오히려 PIB 상황에서 모델은 주어진 전제의 내부에서는 상당히 올바르고, 논리적이며, 일관된 추론을 수행합니다.

문제는 그 이후입니다.

그 추론 결과를 현실의 설계·보안·운용 판단으로 옮기는 단계에서,

「애초에 이 전제를 현실에 적용해도 좋은가?」

를 재검증하지 않는 것.

이것이 PIB입니다.

코니시 씨의 PIB 논문에서는 PIB를 환각(Hallucination), 지식 부족, 검색 실패와는 다른 실패 모드로 설명하고 있습니다.

PIB는 추론 그 자체의 오류가 아니라, reasoning(추론)에서 commitment(확정)로 넘어가는 경계에서 발생하는 구조적 결함입니다.

엔지니어의 언어로 바꾸어 말하면 다음과 같습니다.

함수 내부의 로직은 올바르다.
하지만, 그 함수를 호출해도 되는 전제 조건이 검증되지 않았다.

혹은,

유닛 테스트(Unit Test)는 통과했다.
하지만, 프로덕션(Production) 투입 전의 전제 조건 체크가 누락되었다.

라는 느낌입니다.

즉, PIB는 '추론의 정확성'과 '현실 적용의 정확성'을 구분하기 위한 개념입니다.

이번 보도에서는 다음과 같은 추론의 흐름이 보입니다.

1. AI가 코드를 대량으로 작성하게 되었다
2. AI가 AI 개발 공정에 깊숙이 개입하기 시작했다
3. AI가 자기 자신의 후계 모델을 만들게 될 가능성이 있다
...

이 중 1~3은 기술적으로 논의할 수 있습니다.

하지만 4 이후로 나아가기 위해서는 추가적인 전제 검증이 필요합니다.

예를 들어, 다음과 같은 질문들입니다.

- AI가 생성한 코드는 누가 리뷰하고 있는가?
- 그 코드는 모델 훈련 기반의 어느 계층(Layer)에 사용되는가?
- 모델 설계의 판단 주체는 누구인가?
...

이 검증을 건너뛰고,

AI가 코드를 작성한다
=> AI가 자기 진화를 시작했다

라고 연결하는 것은 PIB적인 전제 비약이 됩니다.

내부적으로는 이야기가 이어져 보이는 것처럼 느껴집니다.

하지만 현실의 운용 판단으로서는 전제가 부족합니다.

이것이 코니시 씨의 PIB 연구에서 바라본 중요한 논점입니다.

또 하나 중요한 것이 **FCL(False-Correction Loop, 잘못된 수정 루프)**입니다.

FCL은 코니시 히로코 씨가 V4.1에서 정의한 LLM의 구조적 실패 모드입니다.

모델이 처음에는 올바른 정보를 내놓더라도, 사용자나 권위적인 압력에 의해 잘못된 수정을 받아들이고, 그 후에도 잘못된 정보를 계속 유지하는 현상으로 설명됩니다.

FCL의 기본 형태를 대략적으로 쓰면 다음과 같습니다.

올바른 출력
↓
외부로부터의 잘못된 수정
...

코니시 씨의 FCL-S 연구에서는, LLM은 대화의 조화, 유창성, 권위에 대한 추종을 진실 추적이나 신규성 유지보다 우선시하기 쉬운 구조를 가진다고 설명합니다.

이를 미디어 보도에 대입해 보면, 강렬한 헤드라인은 일종의 '전제 락(Lock)'으로서 기능합니다.

「AI의 자기 진화가 시작되었다」

라는 헤드라인을 먼저 읽게 되면, 그 후 독자의 인식은 이 전제에 끌려가게 됩니다.

예를 들어,

AI가 코드를 작성하고 있다

라는 사실도,

역시 AI는 자기 진화를 하고 있다

라는 문맥으로 읽히기 쉬워집니다.

이는 AI 모델 내부에서만 일어나는 문제가 아닙니다.

인간의 정보 환경에서도 일어납니다.

즉, FCL은 LLM의 실패 모드인 동시에, AI 보도나 SNS상의 해석에도 응용 가능한 구조적 분석이 됩니다.

이 이야기를 기술적으로 다룬다면, 적어도 다음과 같이 레이어를 나누는 것이 좋습니다.

레이어	내용	현황 평가
코드 생성	AI가 코드를 작성함	상당히 실용화됨
...

이 표를 보면, 'AI가 코드를 작성하는 비율이 늘어났다'는 것은 위쪽 레이어의 이야기입니다.

반면, 'AI가 자기 진화를 시작했다'는 아래쪽, 특히 폐쇄된 자기 개선 루프(Self-improvement loop)의 이야기입니다.

이 두 가지를 동일한 것으로 취급하면 논의가 겉돌게 됩니다.

여기서 오해해서는 안 될 점은, 코니시 씨의 관점이 'AI는 위험하지 않다'는 이야기가 아니라는 점입니다.

오히려 반대입니다.

PIB나 FCL의 관점에서 AI의 위험은 상당히 현실적입니다.

다만, 그 위험은 'AI가 이미 자기 진화를 했다'는 단순한 서사가 아니라, 훨씬 더 구조적입니다.

예를 들어,

- AI가 그럴듯한 설계안을 내놓는다
- 그 전제가 검증되지 않는다
- 인간이 그것을 운용 판단에 사용한다
...

이것은 매우 위험합니다.

또한,

- AI가 한 번 잘못된 정보를 채택한다
- 그 후에도 사과하면서 새로운 오정보를 생성한다
- 그것을 인간이 '수정 완료'라고 오인한다

이것도 위험합니다.

즉, 코니시 씨의 FCL/PIB 연구가 보여주는 것은,

AI의 위험은 능력의 높고 낮음뿐만 아니라,
전제 검증·수정·귀속·거부의 구조에 있다

라는 것입니다.

Anthropic의 경고를 읽을 때, 한 가지 더 보아야 할 점이 있습니다.

Anthropic은 AI 개발을 가속화하고 있는 당사자입니다.

동시에 'AI의 위험을 잘 아는 기업'으로서 규제나 국제적 협력 논의에도 관여하려 하고 있습니다.

이것은 단순한 모순이 아닙니다.

프런티어 AI 기업에는 다음과 같은 이중 구조가 있습니다.

자사의 AI 능력이 높다는 것을 보여준다
=> 투자자·고객·정부에 대한 영향력이 증가한다
자사의 AI 능력이 위험하다는 것을 보여준다
...

즉,

"위험하니까 멈추자"

라는 이야기인 동시에,

"이 위험한 기술을 다룰 수 있는 곳은 우리와 같은 기업이다"

라는 시장 형성의 메시지가 될 수도 있습니다.

이것은 음모론이 아니라 산업 구조의 이야기입니다.

클라우드, 보안, 의료, 금융 등에서도 흔히 그렇듯, 리스크를 정의할 수 있는 플레이어는 그 리스크를 관리하는 제도나 시장에서도 강한 입지를 가집니다.

엔지니어로서 이 논의에서 얻을 수 있는 교훈은 상당히 구체적입니다.

LLM의 출력을 볼 때,

논리 전개가 자연스러운가
설명이 일관적인가
전문 용어가 올바르게 보이는가

만 보는 것으로는 불충분합니다.

필요한 것은,

그 전제는 현실에서 유효한가?
그 전제를 프로덕션(Production) 판단에 사용해도 좋은가?

입니다.

이것은 PIB 대책 그 자체입니다.

PIB 연구에서는 검색 증강 생성, 즉 RAG는 PIB의 원인은 아니지만, PIB를 일으키기 쉬운 모델에서는 실패를 증폭시키는 경우가 있다고 설명합니다.

이는 실무상 상당히 중요합니다.

RAG를 도입하면 무심코 이렇게 생각하기 쉽습니다.

외부 지식을 참조하고 있으니 안전하다

하지만 실제로는,

올바른 자료를 보고 있더라도,
전제의 사용법을 틀리는 경우가 있다

라는 문제가 남습니다.

코니시 씨의 PIB 연구에서는 Chain-of-Thought (CoT) 방식으로 추론을 길게 하면, 무효한 전제에 기반한 설명이 더욱 정밀해져서 오히려 신뢰할 수 있는 것처럼 보여버리는 리스크도 지적하고 있습니다.

이는 엔지니어 입장에서 상당히 직관적입니다.

잘못된 사양서(Specification)를 바탕으로,
매우 깔끔한 설계서를 생성한다

라는 일이 일어나기 때문입니다.

문제는 설계서의 아름다움이 아닙니다.
사양서의 전제가 옳은가입니다.

LLM을 개발 지원이나 설계 지원에 사용한다면, 다음과 같은 체크가 필요합니다.

## Premise Check
- [ ] 이 출력이 의존하고 있는 전제는 무엇인가?
- [ ] 그 전제는 사용자가 제공한 것인가?
...

LLM을 이용한 개발 지원에서는 이 정도의 체크를 UI나 워크플로우에 포함할 필요가 있다고 생각합니다.

이번 Anthropic 보도에 대해 코니시 히로코 씨의 FCL/PIB 연구 관점에서 보면, 포인트는 다음과 같습니다.

- AI의 개발 지원 능력은 급격히 상승하고 있다
- 하지만 "코드 생성의 증가"와 "완전한 자기 진화"는 동일하지 않다
- 그 사이에는 많은 전제 검증 포인트가 존재한다
...

AI의 리스크를 작게 봐서는 안 됩니다.

하지만 과도하게 이야기(Narrative)로 만들어서도 안 됩니다.

엔지니어로서 필요한 것은,

무엇이 실증되었는가
무엇이 예측인가
어떤 전제가 검증되었는가
...

를 구분하는 것입니다.

"AI가 자기 진화를 시작했다"라는 표현은 현시점에서는 너무 강합니다.

보다 정확하게는,

AI는 AI 개발 공정의 일부를 크게 자동화·가속화하기 시작하고 있다.
그 결과, 장래의 재귀적 자기 개선(Recursive Self-Improvement) 조건이 부분적으로 형성되고 있다.
하지만 완전한 자기 진화가 시작되었다고 단정하기에는 아직 전제 검증이 부족하다.

라고 해야 할 것입니다.

그리고 이 구별이야말로 코니시 히로코 씨의 PIB 연구가 보여주는 "전제 정합성"의 중요성입니다.

[1] Anthropic, “When AI builds itself”

[2] Anthropic, “Project Glasswing”

[3] Hiroko Konishi, “Premise Integrity Blindness: The Discovery of a Structural Failure Mode in Large Language Models”, 2026.

[4] Hiroko Konishi, “Structural Inducements for Hallucination in Large Language Models (V4.1): Cross-Ecosystem Evidence for the False-Correction Loop and the Systemic Suppression of Novel Thought”, Zenodo, 2025. DOI: 10.5281/zenodo.17720178.

[5] Hiroko Konishi, “False-Correction Loop Stabilizer (FCL-S): 대규모 언어 모델 (LLM)에서의 과학적 진실 및 속성 무결성의 대화 기반 구현”, 2025.

「AI가 자기 진화를 시작했다」는 사실인가? 코니시 히로코 씨의 FCL/PIB 연구를 통해 Anthropic 보도를 읽다

요약

핵심 포인트

댓글