AI에게 거울을 주었습니다. 이제 AI는 자신이 무엇을 믿는지 측정합니다.
요약
Empirica는 AI 에이전트의 자기 인식과 신뢰성을 높이기 위한 인식론적 인프라 프레임워크입니다. AI가 수행하는 작업의 확신도를 측정하고, 세션 간의 기억을 유지하며, 지식과 작화(hallucination)를 구분하여 에이전트의 성능을 제어합니다.
핵심 포인트
- AI 에이전트의 지식과 실제 사실 간의 간극 측정
- 4계층 메모리 시스템을 통한 세션 간 학습 내용 유지
- 실시간 확신도 표시 및 행동 전 이해도 검증 기능
- 3-벡터 모델을 활용한 현실 기반의 보정 메커니즘
우리는 AI에게 거울을 주었습니다. 이제 AI는 자신이 무엇을 믿는지 측정합니다.
AI를 위한 인식론적 인프라 (Epistemic infrastructure) — 세션 전반에 걸친 측정, 메모리, 그리고 교정 (calibration).
Empirica는 AI가 무엇을 알고 있는지 추적하고, AI가 수행하는 작업을 제어하며, 세션 경계를 넘어 학습을 누적합니다. Empirica는 AI가 예측하는 것과 실제 사실 사이의 간극을 측정하여, AI 에이전트(AI agents)를 측정 가능한 수준으로 더 신뢰할 수 있게 만듭니다.
훈련 및 가이드 (Training & Guides) | CLI 레퍼런스 (CLI Reference) | 아키텍처 (Architecture)
중요: Empirica는 AI 측정 프레임워크입니다. 암호화폐, 토큰, 코인 또는 블록체인 구성 요소를 포함하고 있지 않습니다. Empirica 이름을 사용하는 모든 토큰(Solana의 "$EMPIRICA" 포함)은 승인되지 않았으며, 이 프로젝트 또는 Empirica AI GmbH와 관련이 없습니다.
오늘날의 AI 코딩 에이전트(AI coding agents)는 자신이 무엇을 알고 있는지에 대한 자기 인식(self-awareness)이 없습니다:
세션 간 망각 — 매번 동일한 질문에 대해 동일한 막다른 길에 도달함
이해하기 전에 행동함 — 아키텍처(architecture)를 파악하지 못한 채 코드를 수정함
추측하고 있을 때 알려줄 수 없음 — 지식(knowledge)과 작화(confabulation) 사이의 구분이 없음
감사 추적(audit trail) 부재 — 컨텍스트 윈도우(context window)와 함께 추론 과정이 증발함
| 기능 (Capability) | 사용자 경험 (What You Experience) |
|---|---|
| 행동 전 측정 (Measures before acting) | AI가 코드베이스를 건드리기 전에 먼저 조사합니다. Sentinel 게이트가 이해도가 증명될 때까지 수정을 차단합니다. |
| 세션 간 기억 유지 (Remembers across sessions) | 발견 사항, 막다른 길(dead-ends), 학습 내용이 4계층 메모리 시스템(4-layer memory system)에 유지됩니다. 세션 3은 세션 2가 멈춘 지점에서 시작됩니다. |
| 확신에 찬 실수 방지 (Prevents confident mistakes) | CHECK 게이트는 중요도에 따라 스케일링된 도메인 인지 임계값(domain-aware thresholds)을 사용합니다. 사이버 보안/높음(cybersec/high) 설정은 기본/낮음(default/low)보다 더 엄격합니다. |
| 실시간 확신도 표시 (Shows confidence in real-time) | 터미널에 라이브 상태 표시줄(statusline)이 나타납니다: [empirica] ⚡94% ↕70% │ 🎯3 │ POST 🔍92% │ K:95% C:92% |
| 현실에 기반한 보정 (Calibrates against reality) | 3-벡터 모델(Three-vector model)을 사용합니다: 자기 평가(self-assessed), 관찰된 상태(observed, 결정론적 체크를 통해 도출), 그리고 근거를 포함한 AI 추론 기반의 접지된 상태(AI-reasoned grounded state). 도메인 준수 루프(Domain compliance loops)가 모든 체크를 통과할 때까지 반복됩니다. |
| 코드베이스 추적 (Tracks your codebase) | 시계열 엔티티 모델(Temporal entity model)이 모든 파일 수정으로부터 함수, 클래스, 임포트(imports)를 자동 추출합니다. AI는 무엇이 활성 상태이고 무엇이 오래된 상태인지 알고 있습니다. |
| 자연어를 통한 작동 (Works through natural language) | 사용자는 평소처럼 작업을 설명합니다. AI가 측정 시스템을 자동으로 운영합니다. |
사용자는 AI와 평소처럼 대화합니다. Empirica는 백그라운드에서 작동합니다:
사용자: "로그인 흐름의 인증 버그를 수정해줘"
Empirica: [AI 조사 → 발견 사항 기록 → Sentinel 게이트 통과 → 수정 구현 → 학습 측정]
사용자가 보는 화면: ⚡87% ↕70% │ 🎯1 │ POST 🔍85% │ K:88% C:82% │ Δ +K
사용자는 지시하고, AI는 측정합니다.
Empirica의 CLI는 조사, 측정, 보정, 메모리를 아우르는 150개 이상의 명령어를 갖추고 있으며, 마치 조종석의 계기판(cockpit instrument panel)과 같습니다. 사용자는 이 명령어들을 배울 필요가 없습니다. AI가 계기판을 읽고, 제어 장치를 조작하며, 자연어로 결과를 보고합니다. 상태 표시줄(statusline)을 통해 비행 데이터(flight data)를 한눈에 확인할 수 있습니다.
파워 유저를 위해 직접적인 CLI 접근도 항상 가능합니다: empirica goals-list , empirica calibration-report , empirica project-search --task "..." 및 기타 명령어들.
전체 워크플로우 학습하기: getempirica.com에서 대화형 교육, 가이드, 그리고 모든 개념에 대한 심층적인 설명을 확인할 수 있습니다.
pip install empirica
empirica setup-claude-code
그 후 바로 작업을 시작하면 됩니다. 훅 (hooks), Sentinel, 시스템 프롬프트 (system prompt), 상태 표시줄 (statusline), 그리고 MCP 서버 (MCP server)가 모두 자동으로 구성됩니다. 자세한 내용은 Claude Code Setup을 참조하세요.
이미 Claude Code가 구성되어 있나요? Empirica의 인식론적 훅 (epistemic hooks)으로 기본 Claude Code 설정을 교체하려면 --force를 사용하세요. --force를 사용하지 않으면, 설정 과정에서 이미 존재하는 파일은 작성하지 않습니다. 따라서 이미 Claude Code를 사용 중이라면 기본 내부 설정이 그대로 유지되어 Empirica의 훅이 활성화되지 않습니다.
empirica setup-claude-code --force
--force는 settings.json의 훅을 교체하지만, Empirica 자체의 훅만 제거합니다. 다른 플러그인(Railway, Superpowers 등)의 훅은 보존됩니다.
Homebrew (macOS)
brew tap nubaeon/tap
brew install empirica
empirica setup-claude-code
Docker
# 보안이 강화된 Alpine 이미지 (~276MB, 권장)
docker pull nubaeon/empirica:1.9.11-alpine
# 표준 이미지 (Debian slim, ~414MB)
...
수동 설치 / 기타 AI 플랫폼
pip install empirica
pip install empirica-mcp # MCP 서버 (Cursor, Cline 등을 위한 용도)
cd your-project && empirica project-init
CLI는 모든 플랫폼에서 독립적으로 작동합니다. 전체 인식론적 워크플로우 (epistemic workflow: 인식론적 트랜잭션 (epistemic transactions), Sentinel, 교정 (calibration))를 위해서는 시스템 프롬프트를 AI에 로드해야 합니다. 가장 쉬운 방법은 empirica setup-claude-code를 사용하는 것이며, 이는 경량 프롬프트를 ~/.claude/empirica-system-prompt.md에 연결하고 ~/.claude/CLAUDE.md에서 이를 참조하도록 설정합니다. 자세한 내용은 Claude Code Setup을 참조하세요.
empirica onboard # 전체 워크플로우에 대한 대화형 안내
또는 바로 작업을 시작하세요. Claude Code 훅이 활성화되어 있으면 AI가 인식론적 워크플로우를 자동으로 관리합니다.
Empirica는 중첩된 추상화 계층을 통해 작동합니다:
Plan
└── Transaction 1 (Goal A)
├── NOETIC: 조사, 검색, 읽기 → 발견 사항, 미지의 영역, 막다른 길
...
**Plans (계획)**은 하나의 목표 또는 Claude Code 작업당 하나씩 할당되는 **transactions (트랜잭션)**으로 분해됩니다. 각 트랜잭션은 **noetic-praxic loop (노에틱-프락식 루프)**로 구성됩니다. 즉, 먼저 조사(noetic)하고, 그 다음 행동(praxic)하며, 이 전환 과정은 Sentinel (센티넬)이 제어합니다. 이 과정에서 AI는 artifacts (아티팩트) (발견 사항, 미지의 영역, 가정, 막다른 길, 결정 사항)를 수집하고 읽으며, **semantic search (시맨틱 검색)**를 사용하여 프로젝트 이력에서 관련 있는 인식론적 패턴(epistemic patterns) 및 안티 패턴(anti-patterns)을 찾아냅니다. 상위 아티팩트는 신뢰도에 따라 순위가 매겨지며, 각 프로젝트의 MEMORY.md에 핫 캐시(hot cache)로 입력됩니다.
PREFLIGHT ────────► CHECK ────────► POSTFLIGHT
│ │ │
Baseline Sentinel Learning
...
PREFLIGHT (사전 점검): AI가 작업을 시작하기 전 자신의 지식 상태를 평가합니다.
CHECK (검증): Sentinel 게이트가 코드 수정을 허용하기 전 준비 상태를 검증합니다.
POSTFLIGHT (사후 점검): AI가 학습한 내용을 측정하여 지속되는 델타(delta, 차이)를 생성합니다.
Claude Code 훅이 활성화되어 있으면 AI의 인식론적 상태를 실시간으로 확인할 수 있습니다:
[empirica] ⚡94% ↕70% │ 🎯3 ❓12/5 │ POST 🔍92% │ K:95% C:92% │ Δ +K +C
| 신호 (Signal) | 의미 (Meaning) |
|---|---|
| ⚡94% | 전체적인 인식론적 신뢰도 (Overall epistemic confidence) |
| ↕70% | Sentinel 임계값 (Sentinel threshold, know gate) — 사용자에게만 표시 |
| 🎯3 ❓12/5 | 열린 목표 (3개), 미지의 영역 (총 12개, 그 중 5개는 차단 요소) |
| POST 🔍92% | 트랜잭션 단계 + 작업 상태 (🔍 조사 중 / 🔨 실행 중) 및 복합 점수 |
| K:95% C:92% | 지식(Knowledge) 및 문맥(Context) 벡터 (임계값과의 격차에 따라 색상 구분) |
| Δ +K +C | 학습 델타 (POSTFLIGHT 단계에서만 표시) — 개선된 벡터 표시 |
이 벡터들은 여러 AI 시스템에 걸친 600회 이상의 실제 작업 세션을 통해 도출되었습니다. 이들은 복잡한 작업에서 성공 또는 실패를 일관되게 예측하는 차원들을 측정합니다.
| 계층 (Tier) | 벡터 (Vector) | 측정 대상 |
|---|---|---|
| Gate (관문) | engagement | AI가 능동적으로 처리 중인가, 아니면 참여도가 낮은가? |
| Foundation (기초) | know | 도메인 지식 (Domain knowledge)의 깊이 |
do | 실행 능력 (Execution capability) | |
context | 관련 정보에 대한 접근성 | |
| Comprehension (이해) | clarity | 이해도가 얼마나 명확한가? |
coherence | 정보의 조각들이 서로 잘 들어맞는가? | |
signal | 가용 정보 내의 신호 대 잡음비 (Signal-to-noise) | |
density | 정보의 풍부함 (Information richness) | |
| Execution (실행) | state | 현재 작업 상태 (Current working state) |
change | 진행/변화율 | |
completion | 작업 완료 수준 | |
impact | 작업의 중요도 | |
| Meta (메타) | uncertainty | 명시적인 의구심 추적 |
심층 분석: 인식론적 벡터 (Epistemic Vectors) 설명
Empirica는 Claude Code가 이미 수행하고 있는 기능을 대체하거나 재발명하지 않습니다. Claude Code는 작업, 계획, 메모리 및 프로젝트를 관리합니다. Empirica는 그 위에 **측정 계층 (measurement layer)**을 추가합니다:
| Claude Code의 역할 | Empirica가 추가하는 것 |
|---|---|
| 작업 관리 (Task management) | 측정 가능한 완료 조건을 가진 인식론적 목표 (Epistemic goals) |
| ... |
결과: Claude Code의 고유 기능이 측정, 관문 설정(gating), 그리고 시간이 지남에 따라 복리로 쌓이는 교정 피드백 (calibration feedback)을 통해 강화됩니다.
| 플랫폼 | 통합 수준 | 제공 사항 |
|---|---|---|
| Claude Code | 전체 (운영 환경) | Hooks, Sentinel gate, skills, agents, statusline, MCP |
| Cursor, Cline | MCP 서버 | MCP 도구를 통한 인식론적 트랜잭션 워크플로우, 메모리, 교정 (calibration) |
| Gemini CLI, Copilot | 실험적 단계 | 시스템 프롬프트 (System prompt) + CLI |
| 모든 AI | CLI + 프롬프트 | CLI 명령 및 시스템 프롬프트를 통한 완전한 측정 |
| 리소스 | 포함 내용 |
|---|---|
| getempirica.com | 교육 과정, 대화형 가이드, 심층 설명 |
| Natural Language Guide | Empirica를 사용하여 AI와 협업하는 방법 |
| Getting Started | 초기 설정 및 개념 |
| CLI Reference | 문서화된 150개 이상의 모든 명령 |
| Architecture | 기여자를 위한 기술 참조 문서 |
| Claude Code Setup | 설치 + 시스템 프롬프트 + 플러그인 연결 |
| 프로젝트 | 설명 | 상태 |
|---|---|---|
| Empirica | 핵심 측정 시스템 — 인식적 트랜잭션 (epistemic transactions), Sentinel, 캘리브레이션 (calibration), 13개 벡터 | 오픈 소스 |
| Empirica Iris | SVG 공간 인덱싱을 활용한 인식적 브라우저 자동화 — 시각적 상호작용을 위한 Sentinel 게이팅 (gating) | 오픈 소스 |
| Docpistemic | 인식적 문서 커버리지 평가 — 당신의 문서가 무엇을 알고 있는지 파악 | |
| 오픈 소스 | ||
| Breadcrumbs | git notes를 활용한 컨텍스트 압축 생존 — 매우 단순한 세션 연속성 | 오픈 소스 |
| Empirica Cortex | 프로젝트 간 지능 계층 — 검증된 예측과 축적된 학습 내용을 제공하여 향후 작업의 조건 설정 | 독점 (Proprietary) |
| Empirica Workspace | 엔티티 지식 그래프 (Entity Knowledge Graph), 인식적 프롬프트 엔진 (Epistemic Prompt Engine), CRM, 포트폴리오 대시보드 | 독점 (Proprietary) |
Empirica로 무언가를 구축하고 계신가요? 이슈(issue)를 생성하여 목록에 추가하세요.
(cortex-mailbox-send skill4c09b6174) — cortex-mailbox-poll과 쌍을 이룸. Mesh-active 스킬 로드 전제 조건(c0fcc071c) — 두 템플릿(WHEN TO LOAD SKILLS 섹션 c0fcc071c) 모두에서 리스너 모니터(listener Monitor)가 무장되었을 때 — 행동 로드(behavioral load). 목표/하위 작업 작업 예시 TRANSACTION DISCIPLINE 내 c0fcc071c — create_github_release 내 경쟁 상태 허용 (Race-tolerant) scripts/release.py (57870621c). 상세한 (Verbose) (update_homebrew_tap 진단 57870621c). 후보별 경로 로깅. Lint 정리 (Lint cleanup): ai_id 폴백(fallback)에 S110 noqa-with-reason 적용 (fcd4ed0fa, c9981f35e의 ntfy 태그 필터 구독).
목표-기준 브리지 (Goal-criterion bridge) — 자동 평가되는 품질 게이트 (quality gates)
— validation_method 키 기반 레지스트리. 목표는 quality_gate:<metric>@<op>:<threshold> 패키지를 criterion_evaluators로 선언하며, 브리지는 POSTFLIGHT 단계에서 올바른 평가기(evaluator)로 라우팅합니다. — 증거 번들 키(테스트 통과율, ruff 위반, 문체 표류(stylometry drift) 등)와 메트릭이 일치하는 모든 기준을 자동 평가합니다. EvidenceMetricEvaluator.
타입 지정 기준 파서 (Typed criterion parser) — goals-create --success-criteria "quality_gate:test_pass_rate@>=:0.95"
typed CriterionDeclaration으로 파싱됩니다.
.
문체 표류 수집기 (Stylometric drift collector) — 대외 협력 작업을 위한 목소리 일관성 유지
-
12가지 운율 마커 (축약형, MTLD, 문장 길이 표준편차 등)
-
~/.empirica/voice/<name>.fingerprint.json에 저장되는 목소리 지문 (Voice fingerprints) -
표류 방향 추론 (formal_pull / informal_pull / mixed / within_tolerance)
콘텐츠 인식 소스 출처 유도 (Content-aware source provenance nudge) — 텍스트에 인용은 있으나 --source가 없는 아티팩트 (artifact) 생성 시점에 실행됩니다.
. 0%의 채택 격차를 해소합니다.
대량 프로젝트 링크 CLI (Bulk project-link CLI) — projects-discover / projects-list / projects-bulk-register (Cortex 의존적).
실시간 스캔 시맨틱 인덱스 (Live-scan semantic index) — semantic_index.json은 소스 문서가 캐시보다 최신일 때 재생성됩니다.
Sentinel 인용 인식 쉘 파싱 (Sentinel quote-aware shell parsing) — 인용된 코드 내의 잘못된 > (false-positive) 오류를 수정했습니다 (_has_dangerous_redirects가 이제 _contains_outside_quotes를 사용함).
템플릿 버전 매개변수화 (Template version parameterization) (Philipp #100) — CLAUDE.md 및 empirica-system-prompt-lean.md는 {{ empirica_version }} 및 {{ generated_date }} 플레이스홀더 (placeholders)를 사용합니다. 표류 (Drift)가 재발할 수 없습니다.
문서 갱신 (Documentation refresh) — UPGRADE_TO_1.9.md (1.7을 대체), PROJECT_SWITCHING_FOR_AIS.md 전체 재작성, TMUX_MULTI_PANE_GUIDE.md 콕핏 (cockpit) 섹션 (새로운 CLI).
아티팩트들을 집계합니다 empirica commit-context <sha>
각 아티팩트의 --depth N 재귀적 워커 (recursive walker)로부터 엣지 (edges)를 탐색합니다.
개별 항목에 대한 인라인 엣지 선언 (Inline edge declaration on individual)
모든 6가지 *-log 명령 — POSTFLIGHT 회고 + edge_density_nudge — 동일한 형태, 아티팩트 수를 계산합니다.
sources_discipline_nudge 플래그 --status {planned|in_progress|completed|all|drift}는 drift 모드에서 status 텍스트가 나타나는 행을 표시합니다.
**기본 오픈 카운트 (Default open count)**는 이제 is_completed = 0을 정전적 (canonical) 기준으로 사용합니다.
리스너 서브시스템 (Listener subsystem) — cron 루프의 자매 시스템으로, 스케줄링 방식이 아닌 이벤트 기반 (event-driven) 방식입니다. empirica listener register/heartbeat/list
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기