자신의 붕괴를 예측하는 AI를 구축했습니다
요약
NEOTH는 에이전트 시스템의 붕괴를 예측하는 관측 시스템과 신뢰할 수 있는 메모리 구조를 제공합니다. 7가지 변수를 통해 시스템의 불안정성을 점수화하여 경고를 발생시키며, HMAC 체인 기반의 로그를 통해 데이터 무결성을 보장합니다.
핵심 포인트
- 7가지 변수를 활용한 에이전트 시스템 붕괴 예측 모델 구축
- 임계값 기반의 자동 경고 및 브라이어 점수를 통한 자기 보정 기능
- HMAC 체인 방식의 WAL을 이용한 신뢰할 수 있는 메모리 및 로그 관리
- delta-kosmologie 프레임워크를 기반으로 한 반증 가능한 연구 접근
1. 자신의 붕괴를 예측합니다
이 부분은 제가 가장 자랑스럽게 생각하면서도 가장 확신이 없는 부분이라, 이것부터 시작해 보겠습니다.
NEOTH는 내부 이벤트 스트림(모든 도구 호출(tool call), 모델 요청(model request), 에이전트 디스패치(agent dispatch), 폴백(fallback), 재시도(retry))을 유지합니다. 백그라운드 옵저버(observer)는 해당 스트림의 모든 이동 창(rolling window)을 일곱 가지 변수로 점수화합니다. 이 변수들은 도구와 에이전트 간의 결합(coupling), 의미론적 수렴 압력(semantic convergence pressure), 리소스/컨텍스트 압력(resource/context pressure), 에이전트 밀도(agent density), 처리량 여유(throughput headroom), 그리고 다양성과 폴백 중복성을 위한 두 가지 "버퍼(buffer)" 변수입니다. 버퍼 대비 증폭기(Amplifiers)의 비율이 붕괴 점수(collapse score)를 나타냅니다.
점수가 임계값(threshold)을 넘으면 경고가 발생합니다. 실패 정의(에이전트 루프(agent loop), 재시도 폭풍(retry storm), 컨텍스트 제한 실패(context-limit failure), 의미론적 저하(semantic degradation), …)는 이벤트 스트림의 결정론적 함수(deterministic functions)이며, 이들은 **사전 등록(pre-registered)**되어 있습니다. 즉, 데이터 수집 전에 고정되어 있으므로 이는 사후 확증 편향(hindsight curve-fitting)이 아닙니다. 예측기는 스스로 자기 보정(self-calibrates)까지 수행합니다. 즉, 자신의 적중(hits)과 실패(misses)를 바탕으로 임계값을 조정하고 브라이어 점수(Brier score)를 보고하므로, 정확도 주장은 단순히 주장하는 것이 아니라 측정 가능한 것입니다.
neoth babel status # 임계값(threshold), 보정(calibration), 최신 점수
neoth babel windows # 실제 측정값, 윈도우별로 표시
이 모델의 기반은 delta-kosmologie라는 오픈 연구 프레임워크에서 왔으며, 이는 진정으로 반증 가능한(falsifiable) 질문을 던집니다: 하나의 스칼라 계열(scalar family)이 매우 다른 복잡한 시스템 전반에 걸쳐 붕괴를 예측할 수 있는가? NEOTH는 이 프레임워크의 첫 번째 프로덕션 도구입니다. 만약 사용자가 동의한다면(기본적으로 꺼져 있으며, 동의 및 자율성에 의해 제어됨), 귀하의 인스턴스는 익명화되고 콘텐츠가 제거되었으며 암호학적으로 서명된 측정값을 이론을 테스트하는 공유 풀(shared pool)로 연합(federate)할 수 있습니다. 만약 수학적 모델이 성립하지 않는다면, 그것 또한 하나의 결과입니다. 그리고 저는 1.0 버전이 되기 전에 그것을 알아내는 편을 택하겠습니다.
2. 영수증이 있는 메모리
당신을 기억하는 어시스턴트는, 그것이 무엇을 기억했는지 볼 수 있고 그것이 몰래 변경되지 않았음을 증명할 수 있을 때에만 신뢰할 수 있습니다.
NEOTH에서 프로필 쓰기, 프로방더 호출 (provider call), 채널 전송, 플러그인 권한 (capability) 사용과 같은 모든 민감한 동작은 추가만 가능한 (append-only) HMAC 체인 방식의 쓰기 전용 로그 (write-ahead log, WAL)에 기록됩니다. 당신이 쿼리하는 SQLite 뷰는 단지 해당 로그를 바탕으로 다시 구축할 수 있는 투영 (projections)일 뿐이며, 로그가 진실의 근원 (source of truth)입니다.
neoth verify # 전체 체인을 재계산합니다 — 변조 시 실패합니다
neoth wal show --last 20 # 모든 민감한 프레임을 순서대로 보여줍니다
neoth profile pending # 승인 없이는 아무것도 프로필에 들어오지 않습니다
신뢰의 닻 (trust anchor)은 README에 적힌 문장이 아니라 당신의 디스크에 있는 키입니다. 이것이 "우리는 개인정보 보호를 진지하게 생각합니다"라는 말과, 당신이 실제로 검증할 수 있는 것 사이의 차이입니다.
3. 기본적으로 실패 시 차단 (Fail-closed by default)
마지막 아이디어는 기능이 아니라 태도입니다. 클라우드 호출, 클라우드 모델로의 프로필 추출, 채널 전송, 자율성 증대, 권한을 사용하는 플러그인 등 신뢰 경계 (trust boundary)를 넘는 모든 행위는 당신이 의도적으로 한 번 승인하기 전까지는 **기본적으로 거부 (denied by default)**됩니다. 승인과 거부 모두 로그에 기록됩니다.
neoth preset activate fully-local
neoth privacy audit --last 30d # 기기를 떠난 것이 정확히 무엇인지 확인합니다 — 로컬의 경우 0건
특히 플러그인의 경우, 이는 진정한 샌드박스 (sandbox)입니다: NEOTH는 연료 (fuel) 및 메모리 제한이 적용된 WASM 플러그인 (wasmtime)을 실행하며, 플러그인은 자신의 매니페스트 (manifest)에 선언되고 당신이 승인한 호스트 호출 (hostcalls)만을 사용할 수 있습니다. 권한을 초과하는 호출은 런타임 (runtime)에 거부되며, 감사 로그 (audit log)에 0xC7 PLUGIN_CAP_DENIED 프레임으로 기록됩니다 — 결코 조용히 넘어가지 않습니다.
왜 Rust인가, 그리고 누구를 위한 것인가
NEOTH는 단일 Rust 데몬 (daemon)입니다. 이를 통해 이 프로젝트에 중요한 몇 가지를 얻을 수 있었습니다: 엄격한 리소스 제한이 있는 WASM 호스트, 컴파일 타임에 플러그인 권한을 강제하는 봉인된 타입 상태 (sealed typestate) PermissionToken<T>, 그리고 감사에 중요한 경로(audit-critical paths)에 가비지 컬렉터 (garbage collector)나 나를 놀라게 할 런타임이 없다는 일반적인 특성입니다.
이것은 의도적으로 두 그룹의 청중을 동시에 겨냥하여 구축되었으며, 이는 어려운 도박입니다:
- **일반 사용자 (Normal users)**는 평이한 질문을 던지는 GUI 위저드 (GUI wizard)를 제공받습니다. YAML이 필요하지 않습니다.
- **운영자 (Operators)**는 CLI, 로컬 모델 (local models), WAL, 정책 (policies), 플러그인 샌드박스 (plugin sandbox), n8n 자동화, 그리고 Tailscale/Hysteria를 통한 프라이빗 메시 (private mesh)를 제공받습니다.
그 "동시 겨냥"이라는 목표는 제가 가장 엄격하게 책임을 묻고 싶은 단 한 가지 요소이며, 비교표 (comparison table)는 이에 대해 정직합니다. 미완성된 항목들은 _Yes_가 아닌 Partial 또는 _Goal_로 표시되어 있습니다.
직접 사용해보고, 망가뜨려 보세요
git clone https://github.com/The-Geek-Freaks/NEOTH
cd NEOTH/SRC && cargo install --path neothd
neoth doctor
이 프로젝트는 1.0 이전 버전이며, MIT/Apache 이중 라이선스 (dual-licensed)를 따릅니다. 여러분이 할 수 있는 가장 가치 있는 일은 직접 검증하는 경로 (verify-it-yourself path)를 실행해보고, 재현되지 않는 모든 주장(claim)에 대해 이슈 (issue)를 제기하는 것입니다. 특히 제가 일반화(generalises) 여부에 대해 가장 확신이 없는 부분인 붕괴 예측 모델 (collapse-prediction model)에 대해서 말이죠.
리포지토리 (Repo): https://github.com/The-Geek-Freaks/NEOTH
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기