자신의 붕괴를 예측하는 AI를 구축했습니다

1. 자신의 붕괴를 예측합니다

이 부분은 제가 가장 자랑스럽게 생각하면서도 가장 확신이 없는 부분이라, 이것부터 시작해 보겠습니다.

NEOTH는 내부 이벤트 스트림(모든 도구 호출(tool call), 모델 요청(model request), 에이전트 디스패치(agent dispatch), 폴백(fallback), 재시도(retry))을 유지합니다. 백그라운드 옵저버(observer)는 해당 스트림의 모든 이동 창(rolling window)을 일곱 가지 변수로 점수화합니다. 이 변수들은 도구와 에이전트 간의 결합(coupling), 의미론적 수렴 압력(semantic convergence pressure), 리소스/컨텍스트 압력(resource/context pressure), 에이전트 밀도(agent density), 처리량 여유(throughput headroom), 그리고 다양성과 폴백 중복성을 위한 두 가지 "버퍼(buffer)" 변수입니다. 버퍼 대비 증폭기(Amplifiers)의 비율이 붕괴 점수(collapse score)를 나타냅니다.

점수가 임계값(threshold)을 넘으면 경고가 발생합니다. 실패 정의(에이전트 루프(agent loop), 재시도 폭풍(retry storm), 컨텍스트 제한 실패(context-limit failure), 의미론적 저하(semantic degradation), …)는 이벤트 스트림의 결정론적 함수(deterministic functions)이며, 이들은 **사전 등록(pre-registered)**되어 있습니다. 즉, 데이터 수집 전에 고정되어 있으므로 이는 사후 확증 편향(hindsight curve-fitting)이 아닙니다. 예측기는 스스로 자기 보정(self-calibrates)까지 수행합니다. 즉, 자신의 적중(hits)과 실패(misses)를 바탕으로 임계값을 조정하고 브라이어 점수(Brier score)를 보고하므로, 정확도 주장은 단순히 주장하는 것이 아니라 측정 가능한 것입니다.

neoth babel status     # 임계값(threshold), 보정(calibration), 최신 점수
neoth babel windows    # 실제 측정값, 윈도우별로 표시

이 모델의 기반은 delta-kosmologie라는 오픈 연구 프레임워크에서 왔으며, 이는 진정으로 반증 가능한(falsifiable) 질문을 던집니다: 하나의 스칼라 계열(scalar family)이 매우 다른 복잡한 시스템 전반에 걸쳐 붕괴를 예측할 수 있는가? NEOTH는 이 프레임워크의 첫 번째 프로덕션 도구입니다. 만약 사용자가 동의한다면(기본적으로 꺼져 있으며, 동의 및 자율성에 의해 제어됨), 귀하의 인스턴스는 익명화되고 콘텐츠가 제거되었으며 암호학적으로 서명된 측정값을 이론을 테스트하는 공유 풀(shared pool)로 연합(federate)할 수 있습니다. 만약 수학적 모델이 성립하지 않는다면, 그것 또한 하나의 결과입니다. 그리고 저는 1.0 버전이 되기 전에 그것을 알아내는 편을 택하겠습니다.

2. 영수증이 있는 메모리

당신을 기억하는 어시스턴트는, 그것이 무엇을 기억했는지 볼 수 있고 그것이 몰래 변경되지 않았음을 증명할 수 있을 때에만 신뢰할 수 있습니다.

NEOTH에서 프로필 쓰기, 프로방더 호출 (provider call), 채널 전송, 플러그인 권한 (capability) 사용과 같은 모든 민감한 동작은 추가만 가능한 (append-only) HMAC 체인 방식의 쓰기 전용 로그 (write-ahead log, WAL)에 기록됩니다. 당신이 쿼리하는 SQLite 뷰는 단지 해당 로그를 바탕으로 다시 구축할 수 있는 투영 (projections)일 뿐이며, 로그가 진실의 근원 (source of truth)입니다.

neoth verify              # 전체 체인을 재계산합니다 — 변조 시 실패합니다
neoth wal show --last 20  # 모든 민감한 프레임을 순서대로 보여줍니다
neoth profile pending     # 승인 없이는 아무것도 프로필에 들어오지 않습니다

신뢰의 닻 (trust anchor)은 README에 적힌 문장이 아니라 당신의 디스크에 있는 키입니다. 이것이 "우리는 개인정보 보호를 진지하게 생각합니다"라는 말과, 당신이 실제로 검증할 수 있는 것 사이의 차이입니다.

3. 기본적으로 실패 시 차단 (Fail-closed by default)

마지막 아이디어는 기능이 아니라 태도입니다. 클라우드 호출, 클라우드 모델로의 프로필 추출, 채널 전송, 자율성 증대, 권한을 사용하는 플러그인 등 신뢰 경계 (trust boundary)를 넘는 모든 행위는 당신이 의도적으로 한 번 승인하기 전까지는 **기본적으로 거부 (denied by default)**됩니다. 승인과 거부 모두 로그에 기록됩니다.

neoth preset activate fully-local
neoth privacy audit --last 30d   # 기기를 떠난 것이 정확히 무엇인지 확인합니다 — 로컬의 경우 0건

특히 플러그인의 경우, 이는 진정한 샌드박스 (sandbox)입니다: NEOTH는 연료 (fuel) 및 메모리 제한이 적용된 WASM 플러그인 (wasmtime)을 실행하며, 플러그인은 자신의 매니페스트 (manifest)에 선언되고 당신이 승인한 호스트 호출 (hostcalls)만을 사용할 수 있습니다. 권한을 초과하는 호출은 런타임 (runtime)에 거부되며, 감사 로그 (audit log)에 0xC7 PLUGIN_CAP_DENIED 프레임으로 기록됩니다 — 결코 조용히 넘어가지 않습니다.

왜 Rust인가, 그리고 누구를 위한 것인가

NEOTH는 단일 Rust 데몬 (daemon)입니다. 이를 통해 이 프로젝트에 중요한 몇 가지를 얻을 수 있었습니다: 엄격한 리소스 제한이 있는 WASM 호스트, 컴파일 타임에 플러그인 권한을 강제하는 봉인된 타입 상태 (sealed typestate) PermissionToken<T>, 그리고 감사에 중요한 경로(audit-critical paths)에 가비지 컬렉터 (garbage collector)나 나를 놀라게 할 런타임이 없다는 일반적인 특성입니다.

이것은 의도적으로 두 그룹의 청중을 동시에 겨냥하여 구축되었으며, 이는 어려운 도박입니다:

**일반 사용자 (Normal users)**는 평이한 질문을 던지는 GUI 위저드 (GUI wizard)를 제공받습니다. YAML이 필요하지 않습니다.
**운영자 (Operators)**는 CLI, 로컬 모델 (local models), WAL, 정책 (policies), 플러그인 샌드박스 (plugin sandbox), n8n 자동화, 그리고 Tailscale/Hysteria를 통한 프라이빗 메시 (private mesh)를 제공받습니다.

그 "동시 겨냥"이라는 목표는 제가 가장 엄격하게 책임을 묻고 싶은 단 한 가지 요소이며, 비교표 (comparison table)는 이에 대해 정직합니다. 미완성된 항목들은 _Yes_가 아닌 Partial 또는 _Goal_로 표시되어 있습니다.

직접 사용해보고, 망가뜨려 보세요

git clone https://github.com/The-Geek-Freaks/NEOTH
cd NEOTH/SRC && cargo install --path neothd
neoth doctor

이 프로젝트는 1.0 이전 버전이며, MIT/Apache 이중 라이선스 (dual-licensed)를 따릅니다. 여러분이 할 수 있는 가장 가치 있는 일은 직접 검증하는 경로 (verify-it-yourself path)를 실행해보고, 재현되지 않는 모든 주장(claim)에 대해 이슈 (issue)를 제기하는 것입니다. 특히 제가 일반화(generalises) 여부에 대해 가장 확신이 없는 부분인 붕괴 예측 모델 (collapse-prediction model)에 대해서 말이죠.

리포지토리 (Repo): https://github.com/The-Geek-Freaks/NEOTH

Insights

자신의 붕괴를 예측하는 AI를 구축했습니다

요약

핵심 포인트

1. 자신의 붕괴를 예측합니다

2. 영수증이 있는 메모리

3. 기본적으로 실패 시 차단 (Fail-closed by default)

왜 Rust인가, 그리고 누구를 위한 것인가

직접 사용해보고, 망가뜨려 보세요

댓글

LLM 보안 판정을 검증 가능하게 만들기: Evidence Gate 패턴

미국의 250주년 생일은 Elon Musk와 기록적인 IPO와 함께한다. 15주년에는 Alexander Hamilton과 주식 시장 버블이

.tflite 파일의 경계를 넘어: MediaPipe Tasks와 AICore로 고성능 엣지 AI 마스터하기

바이브 코딩 (Vibe Coding): 실제로 코딩하지 않고 앱을 만드는 방법

LLM 보안 판정을 검증 가능하게 만들기: Evidence Gate 패턴

미국의 250주년 생일은 Elon Musk와 기록적인 IPO와 함께한다. 15주년에는 Alexander Hamilton과 주식 시장 버블이

.tflite 파일의 경계를 넘어: MediaPipe Tasks와 AICore로 고성능 엣지 AI 마스터하기

바이브 코딩 (Vibe Coding): 실제로 코딩하지 않고 앱을 만드는 방법