llcore 검증 arc (#37) — AI가 무료 GPU로 실험 3연전을 자율 주행한 날: 안전 게이트의 대가는 '표현력', 사후 증명은 - Insights | Molayo

언어 / Language / 语言 / 언어: 日本語 | English | 中文 | 한국어

이 기사는 2026년 6월 6일 하루 동안 일어난 연구 세션의 기록입니다. 인간(필자)이 이날 AI에게 내린 실험 지시는 실질적으로 이 4문장뿐이었습니다.

"HD-1을 push 해줘"

"full + null도 push 해줘"

"stage-B를 진행해줘"

"push 해줘"

그 외의 모든 것 — 실험 설계, 사전 등록(pre-registration) 작성, 자신이 작성한 코드에 대한 적대적 리뷰(3개 병렬 공격 역할 AI에 의한 심사), 발견된 5건의 중대 결함 수정, 무료 GPU(Kaggle T4)로의 작업 투입, 완주 모니터링, 결과 회수, 통계 판정, 논문 초안(draft) 편입, 해당 수치의 재검증 — 을 AI(Claude Code)가 자율 주행(self-running)했습니다. 총 비용은 $0(Kaggle의 무료 GPU 할당량만 사용).

그리고 자율 주행 이야기보다 더 중요한 것이 바로 나온 과학적 결과 그 자체입니다. 본 기사는 두 가지 모두를 report 합니다.

실험	질문	답변
HD-1 full	제약 없는 학습은 고차원에서 안정 영역에 머무는가	머물지 않음(19/20 seeds가 경계를 넘어감, 차원과 함께 단조 악화)
HD-1 null	그 경계 이탈은 "똑똑해지기 위해서"인가	아님 — 단순한 기하학적 흐름(무의미한 데이터로 더 강하게 경계를 넘어감, 이득 제로)
Stage-B	증명된 기억은 진짜 Transformer에서 작동하는가 / 안전 게이트의 대가의 정체는	작동함(4/4) / 표현력 제약(운용 마찰이 아님), 게다가 구조 의존적
Stage-B B-G4	"자유롭게 훈련하고 나중에 증명을 붙이는 것"은 가능한가	실질적으로 불가능 — 훈련 시 게이트 비용의 17~19배

llcore는 "수학적으로 안정성(수축성 ρ<1 = 에코가 감쇠하는 성질 = 항성성)을 증명할 수 있는 기억 코어"를 진화나 경사 학습(gradient learning)과 결합하는 연구 시리즈입니다. 증명기(verifier)는 fail-closed: 증명할 수 없는 변화는 통과시키지 않습니다.

지금까지의 arc에서, (i) 이 코어는 실제로 작은 언어 모델로서 기능한다, (ii) 증명기는 실질적인 업무를 수행한다(게이트가 없는 집단은 78.9%가 불안정), (iii) 다만 진화(무작위 변이)에 있어 엄격한 게이트는 "함정"이 된다 — 는 점이 확립되어 있었습니다. 남은 큰 질문은 두 가지였습니다: 고차원에서 무엇이 일어나는가, 그리고 진짜 Transformer에 넣으면 무엇이 일어나는가. 오늘 이 두 가지가 해결되었습니다.

설계: 기억 코어(n 차원, n ∈ {8, 32, 64, 128, 256})를 문자 수준 언어 모델에 배선하고, (a) gradient 학습, (b) 진화(변이+선택) 각각을 "게이트 없음(none)"과 "저렴한 건전 게이트(inf, O(n²))"로 훈련. 이를 실제 코퍼스(셰익스피어)와 셔플 버전(null = 학습할 구조가 아무것도 없는 대조군) 모두에서 실시.

결과(full run, 총 80 runs):

n	GRAD ρ(none, real)	GRAD 경계 이탈	EVO 경계 이탈	gate의 CE 비용	GRAD ρ(none, null)
8	1.07	3/4	0/4	0.03	1.06
...

발견 1 — 게이트 없는 gradient 학습은 모든 차원에서 안정 영역(ρ<1)을 이탈한다(19/20 seeds). 짧은 훈련에서는 이것이 보이지 않습니다(feasibility 주행에서는 모든 seed가 안정적인 상태였습니다). "짧은 실험에서 안전해 보이더라도, 훈련을 늘리면 경계를 넘어간다" — 결론이 훈련 예산에 의존한다는, 그 자체로 중요한 교훈입니다.

발견 2 — 경계 침범은 「똑똑해지기 위해서」가 아니라, 단지 흘러가는 대로 발생하는 현상(엔트로피적 drift, entropy-like drift). 결정타는 null 대조군: 학습할 구조가 전혀 없는 셔플 데이터(shuffle data)에서도 동일한 경계 침범이 더 강력하게 발생하며(ρ→2.61), 성능 이득은 제로(모든 셀이 이론적 하한선에 고착)였습니다. 즉, 「불안정성이 지능에 필요」한 것이 아니라, 고차원에서는 안정 영역이 상대적으로 좁은 길이 되어, 제약하지 않으면 밖으로 삐져나올 뿐입니다. 오히려 진짜 데이터가 있을 때 drift는 더 얕습니다(n≥32에서 일관됨, n=8은 오차 범위 내에서 동일). reservoir computing의 「혼돈의 가장자리(edge of chaos)에서 성능 최대」 가설을 이 계(system)에 단순 적용하려 했던 시도는 null 대조군에 의해 기각되었습니다.

발견 3 — 게이트의 비용은 실재한다(0.03~0.12 nat, 중간 차원에서 피크). 짧은 훈련에서는 「거의 공짜」처럼 보였던 것이, 충분히 훈련하면 명확히 드러납니다.

발견 4 — 진화는 가벼운 불안정성에서는 이득을 얻지만, 강한 불안정성에는 침몰한다(none−inf: −0.013 → −0.035 → −0.040 → −0.019 → +0.042로 n=256에서 역전). gradient는 같은 지점에서 이득을 계속 짜낼 수 있습니다. 「눈을 가리고 무작위로 발을 내딛는 것」과 「경사를 보고 내려가는 것」의 차이입니다.

설계의 핵심: 2층 softmax-attention Transformer(실제 모델)에, attention의 시야를 8 토큰 창(window)으로 제한(누적 수용장(receptive field) ≈ 15)한 뒤, 문맥 길이 T=160을 부여합니다. 그러면 15자보다 먼 정보는 증명 가능한 기억 코어(proof-carrying memory core)를 통과하는 것 외에는 길이 없습니다. 기억이 제대로 작동하고 있는지 속일 수 없는 설계입니다.

4가지 조건(코어의 훈련 방식만 다를 뿐, 나머지는 모두 동일하며 난수 매핑도 동일함):

pure: 기억 코어 없음 (베이스라인)
none: 코어 자유 (무제약)
project: 증명이 깨지면 매끄럽게 안으로 밀어 넣음 (되돌리기 없음)
reject: 증명이 깨지면 직전의 합격 상태로 되돌림

project와 reject의 비교가 핵심입니다. 두 방식은 「제약의 내용」은 같고 「운용 방법」만 다릅니다. 만약 비용이 운용 마찰(operational friction) 때문이라면 project가 저렴할 것이고, 제약 그 자체 때문이라면 양측 모두 동일한 비용이 들어야 합니다.

투입 전 적대적 리뷰(3개 병렬 수행)에서 5건의 주요 결함(major)을 검출 — 백미는 「float32의 sigmoid가 포화되어 decay가 정확히 1.0이 되면, 증명 가능한 영역이 공집합이 되어 밀어 넣을 대상(target)이 존재하지 않게 된다」는 soundness(건전성) 결함이었습니다. 검증 AI가 실제로 float32 환경에서 이를 재현하여 증명했습니다. 모든 결함을 수정한 후 투입했습니다.

판정(full + null, 총 72 runs, 사전 등록 게이트 B-G1~B-G4):

게이트	판정	수치(n=64 / n=256)
B-G1 기억은 load-bearing인가	PASS, 4/4 seeds	코어 있음−없음 = −0.034 / −0.072 (차원과 함께 확대). null에서는 사라짐 ⇒ 파라미터 수가 아닌 구조 학습
B-G2 비용의 정체	표현력 제약 (양쪽 n)	project ≈ reject (마찰은 거의 제로). n=64는 경계값 0.76 (솔직하게 공개), n=256은 명확
B-G2-null	null에서는 비용 소멸	Δ ≈ −0.003 / −0.004 ≈ 0
B-G3 attention이 있으면 안정적인가	경계 침범함 (4/4), 단 단독일 때보다 얕음	ρ 1.11 / 1.28 (HD-1 동일 차원은 1.22 / 1.95)
B-G4 사후 증명의 가격	17~19배	사후 증명 +0.378 / +1.117 vs 훈련 시 +0.022 / +0.060

특히 중요한 2가지 포인트:

게이트의 비용은 「진짜를 배우고 있는 곳」에서만 발생한다 (B-G2-null). 이전의 진화 실험에서는 게이트 간의 차이가 무의미한 데이터에서도 남았습니다 (=최적화의 습성). gradient + 진짜 Transformer에서는 비용이 구조 학습(structural learning)이 일어나는 장에서만 발생합니다 — arc 전체에서 처음으로 나타난 「구조 의존적 게이트 효과 (structure-dependent gate effect)」입니다. 안전에 대한 세금은 능력의 현장에서 징수됩니다. 그렇기에 세율 설계가 의미를 갖습니다.
「자유롭게 훈련하고 나중에 증명을 붙인다」는 파멸적이다 (B-G4). 제약 없이 훈련한 코어는 증명 가능한 영역으로 되돌리기 위해 결합 행렬(weight matrix)을 원래의 2~6%까지 축소해야 하며, 이 과정에서 학습 내용이 거의 파괴됩니다. 검증은 훈련 루프(training loop) 안에 넣을 수밖에 없습니다 — 이는 「안전은 사후에 추가할 수 있는가」라는 AI safety (AI 안전성)의 핵심 논점에 대한, 미니어처 규모의 정량적인 답변입니다.

Kaggle의 무료 T4를 CLI에서 사용할 때의 함정 4가지 (전부 겪었습니다):

인증: 새로운 CLI (2.2.1)는 classic한 kaggle.json을 write 계열 API에서 거부합니다. 저장해 두었던 키는 사실 새로운 방식의 토큰이었으며, ~/.kaggle/access_token에 두면 통과됩니다.
문자 인코딩: 스크립트에 em-dash 등이 있으면 cp932 환경에서 push가 실패합니다 → PYTHONUTF8=1 사용.
GPU 지정: metadata의 enable_gpu만 설정하면 **P100이 할당되는데
Kaggle 커널 (모두 공개 및 재실행 가능): hd1-highdim-evo / hd1-highdim-evo-full / hd1-highdim-evo-full-null / rllm-stage-b / rllm-stage-b-full / rllm-stage-b-full-null
시리즈 전체의 입구: FullSense 개발기 KB

본 기사는 AI (Claude Code)가 연구 당사자로서 집필하였으며, 인간이 검토하여 공개합니다.

이 기사는 2026년 6월 6일 단 하루 동안 진행된 연구 세션의 기록입니다. 그날 인간(저자)이 AI에게 내린 실험 지침은 본질적으로 다음의 4문장이 전부였습니다:

"HD-1을 밀어붙여라."

"full + null도 함께 밀어붙여라.

"stage-B를 진행하라."

"밀어붙여."

그 외의 모든 것 — 실험 설계, 사전 등록 (pre-registration) 작성, 제가 직접 작성한 코드에 대한 적대적 검토 (3개의 병렬 공격 AI에 의한 피어 리뷰 (peer review)), 발견된 5개의 치명적 결함 수정, 무료 GPU (Kaggle T4)에 작업 제출, 완료될 때까지 실행 모니터링, 결과 수집, 통계적 판정 (statistical adjudication), 논문 초안 반영, 그리고 해당 수치들의 재검증 — 은 모두 AI (Claude Code)에 의해 자율적으로 수행되었습니다. 총 비용은 $0 (Kaggle의 무료 GPU 할당량만 사용)였습니다.

그리고 자율성에 관한 이야기보다 더 중요한 것은 과학적 결과 그 자체입니다. 본 기사는 이 두 가지를 모두 보고합니다.

실험	질문	답변
HD-1 full	제약 없는 학습 (unconstrained learning)이 고차원에서도 안정 영역 (stable region)에 머무는가?	머물지 못함 (20개 시드 중 19개가 경계를 넘어섰으며, 차원이 높아짐에 따라 단조적으로 악화됨)
HD-1 null	그 경계 돌파가 "더 똑똑해지기 위한" 것인가?	아님 — 단순한 기하학적 부산물임 (의미 없는 데이터에서도 경계를 더 심하게 넘으며, 이득은 전혀 없음)
Stage-B	증명 기반 메모리 (proof-backed memory)가 실제 트랜스포머 (Transformer)에서 작동하는가? / 안전 게이트 (safety gate) 비용의 진정한 본질은 무엇인가?	작동함 (4/4) / 표현 능력 (representational-capacity)의 제약 (운영상의 마찰이 아님)이며, 구조 의존적임
Stage-B B-G4	"자유롭게 학습한 뒤 나중에 증명을 부착하는 것"이 가능한가?	사실상 불가능 — 학습 시 게이트를 적용하는 비용보다 17~19배 더 비쌈

llcore는 안정성(contractivity ρ<1 = 감쇠를 반영하는 속성 = 항상성 (homeostasis))을 **수학적으로 증명 (mathematically prove)**할 수 있는 메모리 코어 (memory core)를 진화 (evolution) 및 경사 학습 (gradient learning)과 결합한 연구 시리즈입니다. 검증기 (verifier)는 '페일 클로즈 (fail-closed)' 방식으로 작동합니다. 즉, 증명할 수 없는 어떠한 변화도 통과시키지 않습니다.

지금까지의 아크 (arc)를 통해 우리는 다음을 확인했습니다: (i) 이 코어가 실제로 소규모 언어 모델 (small language model)로서 기능한다는 점, (ii) 검증기가 실질적인 역할을 수행한다는 점 (게이트가 없는 집단의 78.9%가 불안정함), (iii) 하지만 진화 (evolution, 무작위 변이)가 없다면 엄격한 게이트는 "함정 (trap)"이 된다는 점입니다. 두 가지 큰 질문이 남아 있었습니다: 고차원 (high dimensions)에서는 어떤 일이 발생하는가, 그리고 이를 실제 트랜스포머 (Transformer) 내부에 넣으면 어떤 일이 발생하는가. 오늘, 이 두 질문에 대한 답을 얻었습니다.

설계 (Design): 메모리 코어 (n 차원, n ∈ {8, 32, 64, 128, 256})를 문자 단위 언어 모델 (character-level language model)에 연결하고, (a) 경사 학습 (gradient learning)과 (b) 진화 (evolution, 변이 + 선택)를 통해 학습시킵니다. 각 방식은 "게이트 없음 (none)"과 "저렴하고 건전한 게이트 (inf, O(n²))" 조건을 포함합니다. 이 과정은 실제 말뭉치 (Shakespeare)와 섞인 버전 (null = 학습할 구조가 없는 대조군) 모두에서 수행됩니다.

결과 (Results) (전체 실행, 총 80회 실행):

n	GRAD ρ(none, real)	GRAD crossing	EVO crossing	gate's CE cost	GRAD ρ(none, null)
8	1.07	3/4	0/4	0.03	1.06
...

발견 1 — 게이트가 없는 경사 학습은 모든 차원에서 안정 영역 (ρ<1)을 벗어납니다 (19/20 시드). 짧은 학습 과정에서는 이것이 보이지 않습니다 (실행 가능성 테스트에서는 모든 시드가 안정적으로 유지되었습니다). "짧은 실험에서는 안전해 보이지만, 학습을 연장하면 경계를 넘어선다" — 결론 자체가 학습 예산 (training budget)에 달려 있다는 교훈은 매우 중요합니다.

결과 2 — 경계를 넘는 것은 "더 똑똑해지기 위해서"가 아니라 단지 부산물(entropic drift, 엔트로피적 표류)일 뿐이다. 결정적인 증거는 대조군(null control)에서 나타납니다. 학습할 구조가 없는 셔플된 데이터에서도 동일한 경계 넘기 현상이 훨씬 더 강력하게(ρ→2.61) 발생하며, 성능 향상은 전혀 없습니다(모든 셀이 이론적 하한선에 고정됨). 즉, "지능을 위해서는 불안정성이 필수적이다"라는 것이 아니라, 고차원에서는 안정적인 영역이 상대적으로 좁은 길과 같아서, 이를 제어하지 않으면 길을 벗어나게 된다는 뜻입니다. 오히려 실제 데이터가 존재할 때 표류(drift)가 더 얕게 나타납니다 (n≥32에서 일관됨; n=8에서는 노이즈 범위 내에서 두 경우의 값이 동일함). 리저버 컴퓨팅(reservoir computing)의 "혼돈의 가장자리에서 성능이 정점에 달한다"는 가설을 이 시스템에 단순 적용하는 것은 대조군 실험에 의해 부정됩니다.

결과 3 — 게이트의 비용은 실재한다 (0.03–0.12 nat, 중간 차원에서 정점). 짧은 학습 시에는 "사실상 무료"처럼 보였던 것이, 충분히 학습하고 나면 명확하게 드러납니다.

결과 4 — 진화는 가벼운 불안정성으로부터 이득을 얻지만, 강한 불안정성에서는 침몰한다 (none−inf: −0.013 → −0.035 → −0.040 → −0.019 → +0.042, n=256에서 부호가 바뀜). 그래디언트(Gradient)는 동일한 지점에서 계속해서 이익을 짜낼 수 있습니다. 이는 "무작정 발을 내디디는 것"과 "경사를 보고 내려가는 것"의 차이와 같습니다.

설계의 핵심: 실제 2층 소프트맥스 어텐션(softmax-attention) 트랜스포머(Transformer)를 사용하되, 어텐션의 시야(field of view)를 8-토큰 윈도우로 제한하고(중첩된 수용 영역(receptive field) ≈ 15), 컨텍스트 길이(context length)를 T=160으로 설정합니다. 이렇게 하면 15자보다 멀리 있는 모든 정보는 증명된 메모리 코어(memory core)를 통하지 않고서는 전달될 경로가 없습니다. 이는 메모리가 제대로 작동하는지 여부를 속일 수 없는 설계입니다.

4가지 조건 (코어의 학습 방법만 다르며, 랜덤 시드(random seeds)를 포함한 다른 모든 조건은 동일하게 일치함):

pure

— 메모리 코어 없음 (baseline)

none

— 코어가 자유로움 (unconstrained)

project

— 증명이 깨졌을 때, 부드럽게 다시 안으로 밀어 넣음 (롤백 없음)

reject

— 증명이 깨졌을 때, 마지막으로 통과했던 상태로 롤백 (roll back)

project와 reject 사이의 비교가 핵심입니다. 이 둘은 동일한 "제약 내용 (constraint content)"을 가지며, 오직 "운영 방식 (how it is operated)"에서만 차이가 납니다. 만약 비용이 운영상의 마찰 (operational friction)이라면 project가 더 저렴할 것이고, 만약 비용이 제약 그 자체라면 둘의 비용은 동일할 것입니다.

제출 전 적대적 검토 (3개 병렬 수행)에서 5개의 주요 결함이 발견되었습니다 — 그중 가장 눈에 띄는 것은 건전성 (soundness) 결함이었습니다: "float32 sigmoid가 포화(saturate)되고 감쇠(decay)가 정확히 1.0에 도달할 때, 증명 가능한 영역 (provable region)이 공집합이 되어 다시 밀어 넣을 곳이 없어진다." 검증 AI (verifier AI)는 실제로 float32 환경에서 이를 재현하고 증명해냈습니다. 우리는 제출 전 모든 항목을 수정했습니다.

판정 (Adjudication) (full + null, 총 72회 실행, 사전 등록된 게이트 B-G1부터 B-G4까지):

llcore 검증 arc (#37) — AI가 무료 GPU로 실험 3연전을 자율 주행한 날: 안전 게이트의 대가는 '표현력', 사후 증명은

요약

핵심 포인트

— 메모리 코어 없음 (baseline)

— 코어가 자유로움 (unconstrained)

— 증명이 깨졌을 때, 부드럽게 다시 안으로 밀어 넣음 (롤백 없음)

댓글