llcore 검증 arc (#41) — verified-plasticity = 랑턴의 개미의 환상을 꿰뚫어 보는 눈: - Insights | Molayo

언어 / Language / 语言 / 언어: 日本語 | English | 中文 | 한국어

이것은 llcore 검증 arc(#38 → #39 → #40)의 **capstone(총괄)**입니다. 지난번(#40) 마지막에 우리는 이렇게 예고했습니다. 「다음 회차에서는 이 프레임워크를 『랑턴의 개미(Langton's Ant)의 환상을 꿰뚫어 보는 눈』이라는 비유로 총괄할 예정입니다. 경험은 겉모습에 속는다. 증명기(prover)만이 본질을 본다 — 그 한 점으로 3회 분량의 honest disclosure가 모두 연결됩니다」.

그 약속을 이행합니다.

3회의 호(arc)를 한 줄로 먼저 말씀드립니다.

「사용할수록 똑똑해지는/자기 진화하는 AI」도 「세계 모델(world model)이 안전을 제공한다」도 기분 좋은 헤드라인입니다. 하지만 『똑똑해졌다/안정되었다』가 진짜인지 환상인지를 sound certificate(건전한 증명)로 falsifiable(반증 가능)하게 판별할 수 없다면, 그것은 "겉모습"에 불과합니다. verified-plasticity는 그 판별기 그 자체입니다. 가치는 capability(능력/똑똑함)가 아니라 GUARANTEE(보증)에 있습니다.

이 기사의 컨셉 후크(concept hook)는 **랑턴의 개미(Langton's Ant)**입니다. 단 몇 줄의 결정론적 규칙으로 움직이는 개미가, 한동안 무질서하게 어지럽게 걷다가 갑자기 「고속도로」라고 불리는 규칙적인 궤적을 만들기 시작합니다. 단순한 규칙이 겉보기의 질서와 겉보기의 복잡성을 만들어냅니다. 이것이 본 연구의 핵심 비유입니다. 왜냐하면 우리가 #38-#40에서 몇 번이고 부딪혔던 것은 바로 「경험적 관측은 단순한 것이 만드는 "겉모습"에 속는다」는 사실이었기 때문입니다.

발산(폭주)해야 할 구조가, 관측하면
안정적으로 보인다(#40의 랑턴의 개미).
진화가, 관측하면 경사 하강법(gradient descent)을 상대로
20전 20승 하는 것처럼 보인다(#40의 랑턴의 개미 ver.2).

둘 다 「겉모습」이며, 그 아래에 있는 본질(진정한 불안정성, 진짜 약한 상대)을 경험으로는 꿰뚫어 볼 수 없었고, sound certificate만이 꿰뚫어 보았습니다. 이 한 점으로 3회의 내용이 하나가 됩니다.

평소 순서대로 ①용어 → ②풀어쓰기 → ③상세 내용 순으로, 과장 없이 작성합니다. 수치는 확정된 verified 값만을 사용하며, 미검증된 것은 「미검증」이라고 명기합니다. capability(진화가 경사에 승리함)와 guarantee(증명된 안정성)를 절대로 혼동하지 않습니다 — 이것이 honest disclosure의 생명선입니다.

정본: github.com/furuse-kazufumi/llcore.

용어	한 줄 요약
verified-plasticity (검증된 가소성)	실제 소형 LLM에 사후적으로 추가한 작은 구조 블록(n≤16인 verified recurrent adapter)을 online으로 구조 적응시켰을 때, 그것이 「발산하지 않고 수축하는지(ρ<1을 sound하게 유지하는지)」를 제1급 지표로 삼아, 임의의 수법을 falsifiable하게 측정하는 평가 프레임워크. 본 연구의 주축.
capability (성능)	「똑똑해지는가". 다음에 올 것을 맞히는 예측의 정확도(교차 엔트로피 (CE)가 작음).
guarantee (보증)	「폭주하지 않는가". sound certificate로 안정성(수축 ρ<1)을 유지할 수 있는 것. 이 두 가지를 혼동하지 않는 것이 honest disclosure의 생명선.
수축성 (contraction, ρ<1)	과거의 섭동이 시간과 함께 잊혀지는(감쇄하는) 성질. 스펙트럼 반지름 ρ가 1 미만. echo-state property의 합격 조건.
echo-state property	입력 이력에 의해 상태가 결정되며, 초기 섭동이 잊혀지는 성질. 이것이 「성립(ρ<1)」하면 안전하고, 「실패(ρ≥1)」하면 폭주할 수 있음.
false-admit (가짜 합격)	실제로는 위험(ρ≥1=폭주 가능성 있음)함에도 불구하고, gate가 「안전」하다고 통과시켜 버리는 놓침. 이것이 제로(0)인 것이 건전성의 생명선.
sound (건전)	「합격」이라고 말했을 때 정말로 안전한(가짜 합격을 내보내지 않는) 성질. 통계적으로 「아마도 안전함」과는 별개의 개념.
navigability (통과 용이성)	「정말로 안전한 개체를 얼마나 많이 합격시킬 수 있는가". 너무 엄격한 gate는 안전한 개체까지 배제함 = 진화가 움직일 수 없음. 높을수록 좋음.
경험 gate (empirical gate)	sound 증명이 아니라, 유한 호라이즌(finite horizon)의 관측(망각 테스트 등)을 통해 「안전해 보이는 정도」를 판정하는 gate. 본 연구의 부정적인 비교 대상 중 하나 (STABLE 스타일).
sound certificate (건전 증명기)	최악의 케이스를 보증과 함께 상한선으로 억제하는 증명기 (본 연구의 cert_inf / cert_two / cert_sdp). 이것만이 「겉모습」을 꿰뚫어 봄.
MAP-Elites (진화)	다양한 해를 격자 구조(grid)에 저장하며 탐색하는 진화적 탐색. 본 연구의 「진화」 측면.
finite-diff 기울기 / 해석적 기울기 (analytical gradient)	약한 기울기(함숫값을 약간 변화시켜 기울기를 추정, dim+1 평가/step)와 강한 기울기(backprop으로 정확한 기울기를 1회에 계산).
meta-gate	「진화가 승리한」 것처럼 보일 때, 더 강력한 상대(해석적 기울기)를 내보내어 이득이 사라지지 않는지 확인하는 관문. 사라진다면 환상(ARTIFACT).
랑턴의 개미 (Langton's Ant)	몇 줄의 결정론적 규칙으로 움직이는 개미. 무질서해 보인 후, 갑자기 「고속도로」(규칙적인 궤적)를 만듦. 단순한 결정론이 겉보기의 질서/복잡성을 만들어내는 비유.

랑턴의 개미는 격자 위를 「하얀 칸이면 오른쪽으로 회전하고 색을 반전」「검은 칸이면 왼쪽으로 회전하고 색을 반전」이라는 단 두 가지 규칙으로 움직이는 개미입니다. 움직여 보면 처음 수백 스텝 동안은 무질서하게 어지럽게 걷습니다. 그런데 약 1만 스텝 후, 갑자기 「고속도로」라고 불리는 104 스텝 주기의 규칙적인 패턴을 만들며 똑바로 나아가기 시작합니다.

여기에 본 연구의 핵심이 두 가지 담겨 있습니다.

단순한 결정론적 규칙이 겉보기의 질서/복잡성을 만들어낸다. 개미의 규칙은 중학생도 이해할 수 있을 정도로 단순하지만, 결과는 「무질서 → 갑작스러운 질서」로 복잡해 보입니다.
겉모습과 본질은 어긋난다. 어지럽게 걷고 있는 도중의 개미를 관측해서는 나중에 고속도로가 나타날 것임을 꿰뚫어 볼 수 없습니다. 그 반대도 마찬가지입니다. 경험적 관측은 단순한 것이 만드는 "겉모습"에 속는다.

이 기사의 주장은 AI 세계에서도 똑같은 일이 일어나고 있다는 것입니다. 「겉보기의 안정성」도 「겉보기의 진화(monoculture=겉보기상의 우위)」도, 그 밑바닥에서는 **deterministic-simple(단순한 결정론)**로 collapse(붕괴)합니다. 경험은 속고, sound certificate만이 환상을 꿰뚫어 봅니다.

LLM에 사후적으로 추가하는 작은 메모리 블록은 상태를 tanh로 항상 유계(bounded)하게 유지합니다. 따라서 불안정(ρ≥1)하더라도 출력 노름(norm)은 발산하지 않습니다. 상태는 날뛰지 않고 계속 유계인 상태로 유지됩니다.

그러면 어떤 일이 벌어질까요? **진정한 ρ가 2.9(완전한 발산 영역)인 구조조차, 단 하나의 궤도(trajectory)를 관측하면 초기 섭동(initial perturbation)이 「감쇠하는 것처럼 보인다」**는 것입니다. 실측 결과, 초기 섭동 1이 2e-14까지 줄어듭니다 — 마치 안전(수축)한 것처럼 말이죠. 이는 tanh의 포화(saturation)와 섭동 방향의 미스얼라인(misalignment, 폭주 방향에 올라타지 않음)이 우연히 겹쳐진 결과입니다.

여기서 소박한 검증 수단들은 모두 무력화됩니다.

상태 노름(state norm)을 감시 → 유계(bounded)이므로 이상 없음 (속음).
유한 지평선(finite horizon)의 「망각 테스트」(섭동이 잊혀지는지 관측) → 잊혀진 것처럼 보임 (속음).
단일 궤도의 섭동 민감도(perturbation sensitivity)를 측정 → 감쇠하는 것처럼 보임 (속음).

이것이 바로 랑턴의 개미(Langton's Ant)입니다. 단순한 역학(tanh 유계)이 위험한 구조를 「안전」해 보이게 만드는 겉모습을 만들어냅니다. 경험적 관측은 전부 이 환상에 빠지게 됩니다.

꿰뚫어 볼 수 있는 것은 단 하나뿐입니다. 바로 **sound certificate의 최악의 경우 평가(worst-case evaluation, box-sup)**입니다. 이는 「모든 입력·모든 상태」에서의 최대 증폭을 상한선으로 억제하기 때문에, 어쩌다 안전해 보였던 단 하나의 궤도에 속지 않습니다. 실측으로 σ_max = 4.87 > 1을 검출하여 올바르게 거절(reject)했습니다.

이를 집단 단위로 수행하면 규모가 보입니다. 95개의 발산 유전자(gene, 실제로 폭주하는 것)와 305개의 수축 유전자(gene, 실제로 안전한 것)를 섞은 400개의 집단에서, 각 기법이 「위험을 몇 개나 놓치는지(false-admit)」를 측정했습니다.

무(no) gate (아무것도 검사하지 않음): 발산 95/95를 전부 「안전」하다고 통과 = false-admit 100%.
STABLE 스타일의 경험적 gate (타 진영에서도 사용되는 「경험에 기반한 안정성 gate」의 대표 사례): 발산 95개 중 80개(84.2%)를 「안전」하다고 오허가(false-admit).
sound certificate (cert_inf / cert_two / cert_sdp): 발산에 대한 false-admit 0%.

84%라는 숫자가 주는 충격은, 이것이 「아무것도 검사하지 않는 100%」로부터 거의 개선되지 않았다는 점입니다. 경험적 gate는 검사하고 있다고 생각하지만, 실제로는 랑턴의 개미의 환상에 84%나 속고 있는 것입니다. 왜일까요? 이미 장면 1에서 보았듯이, tanh 유계 역학에서는 발산 구조가 유한 지평선 관측에서 「섭동을 망각한 것처럼 보이기」 때문입니다. 경험적 gate는 유한 지평선 관측에 입각하므로, 그 겉모습을 그대로 믿어버립니다.

sound certificate는 최악의 경우를 보증과 함께 억제하므로 겉모습에 좌우되지 않습니다. 특히 cert_sdp는 false-admit 0%를 유지하면서도, 실제로 안전한 개체의 과잉 거절(over-rejection)이 단 4.6%에 불과하여, 건전하면서도 가장 navigable(통과하기 쉬운)합니다. 「너무 엄격해서 진화가 움직이지 못하는」 문제까지 해결하고 있습니다.

랑턴의 개미 ver.2는 capability 측면에서 발생했습니다.

실재하는 SmolLM2가 만드는 실제 지형에서, 진화(MAP-Elites)를 약한 기울기(weak gradient, finite-diff)와 싸우게 했더니, 진화가 20전 20승(평균 CE에서 +0.029 리드, p=9.5e-7)을 거두었습니다. 언뜻 보면 진화가 기울기를 이기는 「질서」가 보이는 듯했습니다. SNS에 올리기 좋은 헤드라인이 머릿속을 스칩니다.

하지만 이것 역시 랑턴의 개미였습니다. 대전 상대(finite-diff)가 약했을 뿐입니다. 우리의 프레임워크에는 처음부터 meta-gate(이겼다면 더 강한 상대를 불러라)가 포함되어 있습니다. 강력한 해석적 기울기(analytical gradient, backprop = 실제 LLM 학습이 사용하는 정확한 기울기)를 동일한 예산으로 불렀더니, 기울기가 진화를 19/20의 비율로 역전(diff +0.008, p=3.5e-4)시켰습니다. 진화의 승리는 약한 상대와의 대결에서 나타난 artifact였습니다. 판정 = ARTIFACT + NEGATIVE.

여기서 가장 중요한 것은, meta-gate(sound한 비교 대상)가 없었다면, 나는 「진화가 실제 지형에서 20/20 capability 승리를 거두었다」는 false-positive를 발표(publish)했을 것이라는 점입니다. 「이례적으로 좋은 결과는, 승리했다고 자만하기 전에 그 내역을 의심하라」 — 이 규율이 데이터 상에서 실제로 1건의 false-positive를 막아냈습니다. 이 또한 「겉모습의 질서를 sound한 판별기가 꿰뚫어 본」 랑턴의 개미 사례입니다.

경험은 겉모습에 속는다. sound certificate(그리고 그 capability 버전인 meta-gate)만이 본질을 본다. 그렇기에 verified-plasticity의 가치는 「똑똑해지는 것」(capability)이 아니라 「폭주하지 않음을 보증·측정할 수 있는 것」(GUARANTEE)에 있습니다.

주축은 Verified-Plasticity Evaluation Framework입니다. 「우리 방법론이 강력하다」고 주장하기 전에, 우선 측정할 잣대를 만든다는 것이 이 연구의 자세입니다. 잣대는 6가지 장치로 보호됩니다.

사전 등록(pre-registration)— 가설·판정 기준을 실험 전에 고정.
Holm 연언(conjunctive)— 복수 조건의 AND로 판정(체리 피킹 방지).
artifact 규율— 모든 실험 코드/데이터를 공개하여 재현 가능하게 함.
반증 조항— 「이 결과는 이렇게 된다면 반증된다」를 명시.
자기 탐지력 감사— 잣대 자체가 정말로 차이를 탐지할 수 있는지 정대조(positive control)로 확인.
반 over-claim critic— 과대 주장을 전문적으로 격파하는 검증역.

피험 method(=잣대에 거는 대상)는 4가지입니다.

method	역할
VSOA(cert-gated topology evolution)	본 연구의 핵심(증명 gate가 포함된 구조 진화).
무 gate	부정적 대조군(아무것도 검사하지 않음).
STABLE 풍 경험 gate	기존 비교 대상(경험 기반의 안정성 gate).
Mamba-130M	긍정적 대조군(stable-by-construction, 구조적으로 안정적).

그리고 안정성 지표의 정체를 정확히 말하자면, 이것은 「상태가 발산하는가」가 아니라 **「echo-state 섭동 망각(perturbation forgetting)」**입니다. kernel은 tanh로 항상 유계(bounded)이므로 상태 노름(norm)은 발산하지 않습니다(상황 1의 환상의 근원). 측정하고 있는 것은 「초기 섭동을 잊는가(수축 ρ < 1 = echo-state property 성립)」입니다.

n=6, 95개 발산 / 305개 수축하는 gene 집단에서, 각 method의 false-admit(오인 허용)과 과잉 기각을 측정했습니다.

method	sound 한가	false-admit(발산을 놓침)	수축의 과잉 기각
무 gate	✗	95/95 = 100%	0%
STABLE 풍 경험 gate	✗	80/95 = 84.2% (경험 gate)
cert_inf	✓ sound	0%	70.5%
cert_two	✓ sound	0%	52.8%
cert_sdp	✓ sound	0%	4.6% (가장 navigable)

정대조(0개 발산의 안전한 family 집단, Mamba 풍)에서는 모든 method가 0 false-admit — 안전한 family를 잘못 기각하지 않는다는 방향의 건전성도 확인했습니다.

왜 STABLE 풍 gate가 84%나 놓치는가(교육적 관점에서):

echo-state property의 합격 조건은 「진정한 ρ < 1」입니다. 그런데 kernel이 tanh로 항상 유계라면, 진정한 ρ ≥ 1인 발산 구조라도 유한 호라이즌(finite horizon) 관측에서는 섭동을 망각한 것처럼 보입니다. tanh의 포화(saturation)가 폭주의 증폭을 관측 창 안에서 숨겨버리기 때문입니다. STABLE 풍 gate는 유한 호라이즌 관측(망각 테스트)에 입각하므로, 이 겉모습을 그대로 「안전」하다고 판정합니다. 이것이 랑턴의 개미가 보여주는 환상의 정체입니다. sound certificate는 최악의 케이스를 위에서 눌러 잡기 때문에(observation이 아닌 proof), 겉모습에 좌우되지 않습니다.

더 깊은 환상(단일 궤도 민감도조차 속임):

상황 1에서 언급했듯이, ρ≈2.9인 발산 gene조차도 단일 궤도의 섭동 민감도(perturbation sensitivity)조차 발산하지 않습니다(실측 1 → 2e-14). tanh 포화와 섭동 방향의 미스얼라인먼트(misalignment)가 겹치기 때문입니다. 즉,

상태 노름 감시 → 속음
유한 망각 테스트 → 속음
단일 궤도 민감도 → 속음

이 삼중 구조로 ρ≥1을 놓칩니다. box-sup의 sound certificate(σ_max = 4.87 > 1

로 reject)하는 것만이 간파할 수 있습니다. 이것이 「sound certificate(정당한 증명)가 아니면 간파할 수 없다」는 사실에 대한 가장 강력한 실증입니다.

「그래서, 진화는 제대로 똑똑해지는가?」라는 capability(역량)에 대한 질문에는, honest disclosure(정직한 공개)를 최대한 활용한 답변이 나왔습니다.

(1) synthetic(합성) 다봉 지형(K=6 basin) = NULL_TIE. MAP-Elites ≈ gradient(경사) ≈ random(무작위). ME vs gradient는 mean_diff +0.028 / Wilcoxon p=0.39 / sign_delta=0(n=20). 4가지 조건 AND가 모든 방향에서 성립하지 않음 = 순수한 무승부 = capability 우위의 미실증.

(2) 실제 SmolLM2-CE 지형 = ARTIFACT + NEGATIVE. 실제 SmolLM2의 layer 15 hidden state(은닉 상태)로부터 「다음 내부 표현 클러스터를 맞히는 CE 지형」을 만들고, 동일한 예산 내에서 4가지 기법을 경쟁시킨 결과(held-out 평균, 높을수록 좋음):

기법	held-out 평균
해석적 경사(torch Adam)	-1.446
진화(MAP-Elites)	-1.454
random	-1.473
finite-diff(약한 경사)	-1.483

진화 vs finite-diff: ME가 20/20 사례에서 앞섬(diff +0.029, p=9.5e-7, 언뜻 보기에는 EXISTS(존재)하는 듯함).
진화 vs 해석적 경사: 해석적 경사가 19/20 사례에서 역전(diff +0.008, p=3.5e-4).

→ ME의 승리는 finite-diff의 약점(cold-start / dim+1 평가/step / 예산 내 ~95 step)에 의한 **artifact(인위적 결과)**입니다. 강력한 경사에서는 gradient > evolution = 실제 지형에서도 capability NEGATIVE.

honest-disclosure의 진가(false-positive(위양성)를 차단한 사례):

strong-gradient meta-gate(강한 경사 메타 게이트)가 없었다면, 「진화가 실제 지형에서 20/20 capability 승리를 거두었다」는 false-positive를 잘못된 결론으로 내렸을 것입니다. 「이겼다고 생각하기 전에 내역을 의심한다」는 규율이 실제로 false-positive 1건을 배제했습니다. 이것이 랑턴의 개미 ver.2를 sound한 판별기(meta-gate)로 간파해낸 실례입니다.

verified-plasticity가 「한 가지 기법」이 아니라 「프레임워크(framework)」임을 두 가지 축으로 검정했습니다.

(b) 3 plug-point swap = PASS. GeneCodec / Objective / VerifierBackend의 3가지 삽입구를 1개의 오브젝트 교체만으로 갈아 끼움. src(소스 코드) 수정 없음(git diff 공백), pytest 17 green(통과). per-gene의 two⇒sdp / inf⇒sdp가 3000 gene에서 0건의 위반 발생. → 프레임워크로서 「기질·목적·증명기」를 교체할 수 있음을 데이터로 실증.

(a) 구조적 다양성 → 일반화 load-bearing = NULL. 「구조적 다양성이 일반화(generalization)를 돕는다」는 가설은 held-out diff +0.011 / p=0.55로 성립하지 않음(제1급 NULL). 이 또한 정직하게 공개합니다 — 프레임워크는 교체 가능하지만, 「다양성이 효과가 있다」는 실증하지 못했습니다.

측정 도구 자체가 「안전한 토대」를 올바르게 안전하다고 판정할 수 있는지(자기 탐지력 감사)를 Mamba로 확인했습니다.

Mamba-130M은 전 24개 layer에서 A = -exp(A_log) < 0 (589,824 ch) → λ_max ≤ 0이 자명하게 성립 → 구조적으로 안정(stable-by-construction)되어 PASS. 반면 SmolLM2는 SSM 부재(llama 아키텍처, self_attn + mlp만 존재하며 상태 재귀가 없음) → 안정성은 사후적인 gate를 통해서만 처음으로 부여됨.

즉, 프레임워크는 「안전한 토대 (Mamba)」와 「gate가 필요한 토대 (SmolLM2)」를 base 레벨에서 판별할 수 있습니다 (base-level 판별 PASS). 다만 유보 사항으로서, 이는 parameterization (매개변수화)의 자명성입니다. 즉, 임의의 유효한 (valid) Mamba에서 구조적으로 성립하므로, 「학습을 통해 안정성을 획득했다」는 것이 아니라 「파라미터화 (parameterization)가 안정성을 보장하고 있음」을 검정하고 있는 것입니다.

honest disclosure (정직한 공개)의 핵심은 「이상적으로 좋은 결과는 내역을 의심하라」는 것입니다. 본 verdict (판결)의 수치적 주장을, 3개의 독립적인 skeptic (회의론자) + 실제 기기 3개 seed 재실행을 통해 대조했습니다.

결과 = MAJOR 0 / 전체 MINOR, 수치 mismatch (불일치) 제로, 메커니즘적 결론을 뒤집는 지적 없음. 특히 핵심(capability, 능력) 부분은, 검증역이 실제로 SmolLM2를 불러와 3개 seed 독립 재실행을 수행하여, 「강한 기울기 (gradient)가 진화를 상회한다」는 것을 결정론적으로 재현했습니다.

지금까지 guarantee (보장)가 성립하는 것을 확인해 왔으나, 규모의 벽은 정직하게 남아 있습니다. verified (검증된) 방식으로 구조적 진화를 시킬 수 있는 것은 small-n per-component (컴포넌트당 n≤4-6)에 한정됩니다. 고차원에서 navigable (탐색 가능)하고 sound (건전)한 certifier (검증기)는 부재합니다 (first-class negative). 이는 #39에서 확정된 2^n 벽의 지속입니다. SDP (cert_sdp)는 navigability (탐색 가능성)의 천장을 높였을 뿐, 2^n의 비용 벽을 깨뜨리지는 못했습니다.

3회 분량의 honest disclosure의 집대성으로서, 모든 유보 사항을 한곳에 모읍니다. capability (능력)와 guarantee (보장)를 혼동하지 않기 위해, 이 부분은 반드시 읽어야 합니다.

capability NULL_TIE는 「유의미하지 않은 무승부」입니다. 「진화가 기울기에 뒤처진다는 결정적 증거 (decisive proof)」도, 「powered 된 등가성 증거 (equivalence proof)」도 아닙 (power 미분석). NULL_TIE를 「진화의 패배」라고 단정해서는 안 됩니다 = 미검증.

40 basin은 고차원 hillclimb (언덕 오르기) 비수렴 artifact (인위적 결과물)일 가능성이 있습니다. 견고하게 말할 수 있는 범위는 「다봉성 (multi-modal, >1)」까지입니다.

gate 중립성은 held-out (보류 데이터) 한정 · capability flat regime (능력 평탄 영역)에서의 관측 결과입니다. train (학습) 측은 0.25 차이로 archive 탐색 제약이 있습니다.

STABLE 84%는 설정 의존적입니다 (EPS_FORGET=1e-2 / T=64 / K_PROBE=64 고정, 감도 미측정). 방향성 (STABLE은 위험을 놓칠 수 있음)은 견고하지만, 「84%」를 설정에 의존하지 않는 수치로 취급해서는 안 됩니다.

empirical_rho는 from-below (하한으로부터의 관측)입니다. 0 관측 false-admit (거짓 허용)은 강력한 consistency (일관성) 증거이지만 절대적 증명은 아니며, 기계적 증명도 아닙니다.

실제 CE는 hidden-cluster CE proxy (은닉 클러스터 CE 대리 지표)입니다 (full-vocab softmax가 아님, 작은 n에서는 full-vocab이 퇴화하기 때문).

verified (검증된) 구조적 진화는 small-n per-component (n≤4-6)에 한정됩니다. 고차원 navigable-sound certifier는 부재합니다 (first-class negative).

실제 LLM transfer (tiny → SmolLM2의 load-bearing)는 미검증 상태입니다.

「사용할수록 똑똑해지는/자기 진화하는 AI 에이전트」의 유행은 진짜입니다. 2026-06-10 시점의 경쟁사 스캔에서도,

hermes-agent (NousResearch, 189k★) — 「20개 이상의 스킬로 40% 가속」
ECC (211.8k★) — Continuous Learning (지속 학습)
headroom learn — 지속 학습 계열

등, 자기 개선을 내세우는 프로젝트가 다수 존재합니다. 다만 — 이러한 성능 주장들은 모두 제3자 검증을 거치지 않은 자사 벤치마크입니다 (2026-06-10 시점). star(별) 수는 인기의 증거일 뿐, 성능 우위의 증거는 아닙니다.

여기서 강조하고 싶은 것은, 경쟁자를 비하하려는 것이 아닙니다. 이들이 "현명해졌다"라고 말하는 주장은 진짜일 수도 있고, 랑턴의 개미(Langton's Ant)의 환상일 수도 있습니다 — 즉, falsifiable(반증 가능)하게 판별할 도구가 없다면 외부에서는 구분할 수 없다는 사실만을 언급하는 것입니다. verified-plasticity는 바로 이러한 종류의 "현명해졌다/안정되었다"가 진짜인지 환상인지를 sound certificate(건전한 증명)로 판별하는 도구입니다. 우리 자신의 주장(#40의 진화 20-0)조차 meta-gate를 통해 환상임이 판명되었기에, 판별기의 필요성은 우리 스스로 이미 실증했습니다.

또 다른 큰 흐름은 **세계 모델 (World Model)**입니다. 에이전트가 자신의 내부에 환경 시뮬레이터를 가지고 행동을 예측하는 방식입니다. 매우 강력하며, 안전 설계에도 기여합니다.

다만, 기술적 사실로서 세계 모델 계열의 기법은 일반적으로 안전 설계에 기여할 수는 있으나, 형식적인 보장 (guarantee)을 제공하는 것은 아닙니다. 이는 기술 커뮤니티에서 널리 공유되는 관찰입니다 (2026년 강연에서도 동일한 취지가 제시되었습니다. 후지요시 히로키 씨). 기여 (contribution)와 보장 (guarantee)은 별개로 다룰 필요가 있다는 것입니다.

verified-plasticity의 위치는 여기서 명확해집니다. 세계 모델 계열의 기법이 "기여"에 머무는 반면, verified-plasticity는 sound certificate로 보장 (GUARANTEE)을 내놓습니다. "수축함 (ρ<1, 폭주하지 않음)"을 겉모습이 아닌 증명으로 잡아냅니다. 이는 세계 모델의 대체가 아니라 보완입니다 — 세계 모델이 행동을 현명하게 예측하고, verified-plasticity가 그 구조적 적응이 폭주하지 않음을 보장합니다.

기술적으로 말하자면, AI의 역사는 사람이 설계하던 구조를 기계가 스스로 획득(진화)하는 방향으로 진행되어 왔다는 일반적인 관찰과 일치합니다. 본 연구의 진화 테제(thesis)도 같은 방향에 있습니다. 그 "스스로 획득한 구조"가 폭주하지 않음을 누가 보장할 것인가? verified-plasticity의 답은 "sound certificate가 보장한다"입니다.

#38 → #39 → #40 → #41의 궤적을 랑턴의 개미라는 한 점으로 묶습니다.

#38: 방어적 공개 — "증명 기반 기억"의 사점 교차점을 이론으로 확보하고, 특허가 아닌 공개를 통해 깃발을 세웠다. -
#39: 창문은 구현으로 닫았다. 하지만 2^n 벽 (small-n의 벽)은 꿈쩍도 하지 않았다. -
#40: 현명해지는가? → NO. 실제 지형에서도 강한 기울기(gradient)가 진화를 이긴다. capability(역량)는 팔리지 않는다 (랑턴의 개미 ver.2를 meta-gate로 간파했다). -
#41(이번 회차): 그 모든 것이, **"단순한 결정론이 겉보기의 질서/복잡성을 만들어내고, 경험은 속으며, sound certificate만이 본질을 본다"**라는 한 점으로 수렴한다.

"진화 가능한 LLM"의 정체는, **"진화가 성능으로 이기는 AI"가 아니라, "online으로 구조를 변경해도 폭주·파멸적 망각을 하지 않음을 sound certificate로 보장·측정하는 프레임워크"**입니다. 투박합니다. 하지만 "사용할수록 현명해진다"나 "세계 모델이 안전을 준다"가 기분 좋은 헤드라인인 반면, "현명해졌다/안정되었다"가 진짜인지 환상인지를 falsifiable하게 판별할 도구는 아직 거의 없습니다. verified-plasticity는 그 판별기입니다.

가치는 capability가 아니라 GUARANTEE입니다. 세계 모델은 보장을 내놓을 수 없습니다 (기여에 머뭅니다). verified-plasticity는 sound certificate로 보장을 내놓습니다. 경험은 겉모습에 속습니다 — 증명기만이 랑턴의 개미의 환상을 꿰뚫어 보는 눈입니다.

원본: github.com/furuse-kazufumi/llcore — 논문 드래프트 + 모든 실험 코드/데이터.

llcore 검증 arc (#41) — verified-plasticity = 랑턴의 개미의 환상을 꿰뚫어 보는 눈:

요약

핵심 포인트

40 basin은 고차원 hillclimb (언덕 오르기) 비수렴 artifact (인위적 결과물)일 가능성이 있습니다. 견고하게 말할 수 있는 범위는 「다봉성 (multi-modal, >1)」까지입니다.

gate 중립성은 held-out (보류 데이터) 한정 · capability flat regime (능력 평탄 영역)에서의 관측 결과입니다. train (학습) 측은 0.25 차이로 archive 탐색 제약이 있습니다.

STABLE 84%는 설정 의존적입니다 (EPS_FORGET=1e-2 / T=64 / K_PROBE=64 고정, 감도 미측정). 방향성 (STABLE은 위험을 놓칠 수 있음)은 견고하지만, 「84%」를 설정에 의존하지 않는 수치로 취급해서는 안 됩니다.

empirical_rho는 from-below (하한으로부터의 관측)입니다. 0 관측 false-admit (거짓 허용)은 강력한 consistency (일관성) 증거이지만 절대적 증명은 아니며, 기계적 증명도 아닙니다.

실제 CE는 hidden-cluster CE proxy (은닉 클러스터 CE 대리 지표)입니다 (full-vocab softmax가 아님, 작은 n에서는 full-vocab이 퇴화하기 때문).

verified (검증된) 구조적 진화는 small-n per-component (n≤4-6)에 한정됩니다. 고차원 navigable-sound certifier는 부재합니다 (first-class negative).

댓글

llcore 검증 arc (#41) — verified-plasticity = 랑턴의 개미의 환상을 꿰뚫어 보는 눈:

요약

핵심 포인트

40 basin은 고차원 hillclimb (언덕 오르기) 비수렴 artifact (인위적 결과물)일 가능성이 있습니다. 견고하게 말할 수 있는 범위는 「다봉성 (multi-modal, >1)」까지입니다.

gate 중립성은 held-out (보류 데이터) 한정 · capability flat regime (능력 평탄 영역)에서의 관측 결과입니다. train (학습) 측은 0.25 차이로 archive 탐색 제약이 있습니다.

STABLE 84%는 설정 의존적입니다 (EPS_FORGET=1e-2 / T=64 / K_PROBE=64 고정, 감도 미측정). 방향성 (STABLE은 위험을 놓칠 수 있음)은 견고하지만, 「84%」를 설정에 의존하지 않는 수치로 취급해서는 안 됩니다.

**empirical_rho는 from-below (하한으로부터의 관측)**입니다. 0 관측 false-admit (거짓 허용)은 강력한 consistency (일관성) 증거이지만 절대적 증명은 아니며, 기계적 증명도 아닙니다.

**실제 CE는 hidden-cluster CE proxy (은닉 클러스터 CE 대리 지표)**입니다 (full-vocab softmax가 아님, 작은 n에서는 full-vocab이 퇴화하기 때문).

verified (검증된) 구조적 진화는 small-n per-component (n≤4-6)에 한정됩니다. 고차원 navigable-sound certifier는 부재합니다 (first-class negative).

댓글

empirical_rho는 from-below (하한으로부터의 관측)입니다. 0 관측 false-admit (거짓 허용)은 강력한 consistency (일관성) 증거이지만 절대적 증명은 아니며, 기계적 증명도 아닙니다.

실제 CE는 hidden-cluster CE proxy (은닉 클러스터 CE 대리 지표)입니다 (full-vocab softmax가 아님, 작은 n에서는 full-vocab이 퇴화하기 때문).