기업용 AI를 위한 컨텍스트 엔지니어링(Context Engineering), 파트 4: 기업용 AI 설계 — 거버넌스, 비용 및 안전성 - Insights | Molayo

_PrepStack에 처음 게시되었습니다. 이것은 *기업용 AI를 위한 컨텍스트 엔지니어링 (Context Engineering for Enterprise AI)*의 6개 파트 중 4번째 파트입니다.

파트 1~3에서는 컨텍스트 파이프라인 (context pipeline), 메모리 레이어 (memory layer), 그리고 멀티 에이전트 아키텍처 (multi-agent architecture)를 살펴보았습니다. 이 모든 것들은 실제적이고 측정 가능하지만, 이번 파트에서 다룰 내용인 거버넌스 (governance), 보안 (security), 평가 (evaluation), 관측 가능성 (observability), 비용 제어 (cost control), 그리고 신뢰성 (reliability)으로 감싸기 전까지는 모두 데모 수준에 불과합니다. 이것이 바로 잠 못 이루는 밤이나 금전적 손실, 또는 컴플라이언스 감사 (compliance audit) 걱정 없이 11만 명의 유료 사용자에게 AI를 출시할 수 있게 해주는 기업용 설계 (enterprise design)입니다.

요약 (TL;DR)

거버넌스가 없는 컨텍스트 파이프라인은 기능이 아니라 부채입니다. 기업용 AI의 어려운 점은 모델이 아니라, 모델을 둘러싼 경계 (boundary)입니다.

전체 기업용 설계가 적용된 후의 운영 지표 (Production metrics):

오답 / 환각 (hallucination) 비율: 18% (단순 RAG) → 3%.
충실도 (Faithfulness, groundedness) 평가 점수: 0.96; 답변 관련성 (answer-relevance): 0.91.
평가 게이트 (Eval gate) 임계값: 충실도가 0.90 미만으로 떨어지는 모든 변경 사항은 CI에서 차단됨.
경계에서 차단된 프롬프트 인젝션 (Prompt-injection) 시도: 주당 약 40회.
AI 쿼리당 비용: $0.021 → $0.008 (캐싱 (caching) + 모델 라우팅 (model routing) + 컨텍스트 압축 (context compression)).
요청당 컨텍스트 토큰 (Context tokens): ~14,000 → ~3,500.
에이전트형 쿼리 (Agentic query) p95: 4.2s → 1.8s.
C# 앱 API p95는 120 ms 유지 — AI 작업이 제품 API에 영향을 주지 않음.
모든 AI 응답은 트레이스 ID (trace id) + 불변의 감사 행 (immutable audit row) (프롬프트 해시, 토큰, 비용, 인용)을 포함함.

단 하나의 사고방식 전환

모델을 시스템 그 자체로 취급하는 것을 멈추십시오. 모델은 당신이 거버넌스를 수행하는 시스템 내부의 신뢰할 수 없고 비결정론적인 (non-deterministic) 의존성 중 하나일 뿐입니다. 모델 주변의 모든 것 — 평가 게이트 (eval gates), 보안 경계 (security boundary), 비용 라우팅 (cost routing), 트레이싱 (tracing), 감사 (audit) — 이 바로 당신이 실제로 소유하고, 테스트하며, 책임을 져야 하는 부분입니다. 그것을 엔지니어링하면 모델은 언제든 교체 가능한 것이 됩니다.

평가 게이트 (Evaluation gates): 느낌(vibes)에 의존해 프롬프트를 배포하는 것을 멈추십시오

프롬프트 변경은 비결정론적 컴파일러(non-deterministic compiler)를 사용하는 코드 변경과 같습니다. 테스트 없이 리팩터링을 병합하는 일은 절대 없을 것이며, 평가(eval) 없이 시스템 프롬프트(system-prompt) 수정을 병합해서도 안 됩니다.

약 200개의 엄선된 (질문, 이상적인 답변, 반드시 인용해야 할 출처) 튜플로 구성된 골든 세트(golden set)가 버전 관리 시스템(version control)에 저장되어 있습니다. 모든 프롬프트 또는 모델 변경 사항은 CI(지속적 통합)에서 오프라인 하네스(offline harness)를 실행하여 **충실도 (faithfulness)**와 **답변 관련성 (answer-relevance)**을 점수화합니다. 충실도가 0.90 미만으로 떨어지는 변경 사항은 빌드에 실패합니다. 현재 저희는 충실도 0.96, 관련성 0.91을 유지하고 있습니다.

오프라인은 회귀(regressions)를 잡아내고, 온라인은 드리프트(drift)를 잡아냅니다. 저희는 라이브 트래픽의 약 2%를 샘플링하여 동일한 근거 기반 판별기(groundedness judge)를 비동기 방식(절대 핫 패스(hot path)에서 실행하지 않음)으로 실행하며, 이동 평균 충실도가 떨어지면 경고를 보냅니다.

보안: '안 돼'라고 말하는 경계선

모든 AI 요청은 Python 서비스에 도달하기 전에 AiGovernanceMiddleware를 통과합니다. 이 미들웨어는 RBAC(역할 기반 액세스 제어)를 강제하고, 인증된 tenant_id를 찍으며(클라이언트가 제공하는 ID는 절대 신뢰하지 않음), PII(개인정보)를 삭제하고, 인젝션 분류기(injection classifier)를 실행합니다. 오직 정화되고 범위가 지정된(scoped) 요청만이 HTTP 경계를 넘어갑니다.

인젝션 분류기는 Python 측에서 저렴하게 운영됩니다. 비싼 모델을 완전히 배제하고, 작고 빠른 모델과 거부 패턴 체크(deny-pattern check)를 조합하여 사용합니다. PII 삭제는 인그레스(ingress, 모델이 보기 전)와 이그레스(egress, 답변을 로그에 남기거나 저장하기 전) 모두에서 C#을 통해 수행됩니다.

결과: 이 경계선은 매주 약 40건의 프롬프트 인젝션(prompt-injection) 시도를 차단하며, tenant_id 강제 적용 방식이 "쿼리 내 포함"에서 "토큰 내 포함"으로 변경된 이후 테넌트 간 데이터 검색(cross-tenant retrieval)은 단 한 건도 발생하지 않았습니다.

비용 및 신뢰성: 예산, 라우팅, 그리고 우아한 실패

초당 3,200건의 요청이 발생하는 환경에서, 2센트짜리 쿼리와 0.8센트짜리 쿼리의 차이는 월 3만 달러의 논쟁거리가 됩니다. 그리고 Python 서비스는 반드시 다운될 것입니다. 유일한 문제는 사용자가 500 에러를 보게 될 것인지, 아니면 우아한 기능 저하(graceful degrade)를 경험하게 될 것인지뿐입니다.

C# 클라이언트는 Polly 회복력 파이프라인(resilience pipeline; 타임아웃 + 서킷 브레이커(circuit breaker) + 폴백(fallback))으로 호출을 감싸며, 예산 게이트(budget gate)는 월간 AI 지출 한도를 초과한 테넌트(tenant)의 쿼리를 거부합니다. Python 서비스는 저렴한 작업들을 소형 모델로 라우팅합니다. 캐싱(caching) 및 컨텍스트 압축(context compression)과 결합하여, 쿼리당 비용이 $0.021에서 $0.008로 감소했습니다.

관찰 가능성(Observability) 및 감사(audit): 모든 프롬프트, 토큰, 인용을 추적하십시오

OpenTelemetry 스팬(spans)은 C# 요청으로부터 HTTP 경계를 지나 Python 서비스로 흐른 뒤 다시 돌아오며, 동일한 트레이스 ID(trace id)를 유지합니다. 모든 AI 응답은 프롬프트 해시(prompt hash), 모델, 토큰 수, 비용, 그리고 정확한 인용(citations)을 포함하는 불변의 감사 행(immutable audit row)을 기록합니다. "AI가 이 응답을 위해 무엇을 인용했는가"라는 질문에 답하는 데 걸리는 평균 시간(Mean time to answer)은 "알 수 없음"에서 30초 미만으로 단축되었습니다.

결론적인 멘탈 모델(mental model)

모델은 기업용 AI 시스템에서 가장 저렴하고 교체 가능한 부분입니다. 평가 게이트(eval gate), 보안 경계(security boundary), 비용 라우터(cost router), 그리고 감사 추적(audit trail)이 바로 제품이며, 이것들이 당신이 실제로 책임을 질 수 있는 부분들입니다.

평가 게이트(eval gate)를 통과하지 않은 프롬프트나 모델 변경 사항은 병합될 수 없습니다.
경계(boundary)가 유일한 문입니다. 모든 AI 요청은 거버넌스(governance)를 통과하거나, 아니면 아예 실행되지 않습니다.
추적(trace)할 수 없고 감사(audit)할 수 없다면, 그것은 발생하지 않은 것과 같습니다.

👉 모든 C# (.NET 9) 및 Python 코드, 아키텍처 다이어그램, 출시 전 체크리스트, 그리고 "솔직한 내용"인 주의 사항이 포함된 전체 기사는 PrepStack에서 확인할 수 있습니다:
Context Engineering for Enterprise AI, Part 4

기업용 AI를 위한 컨텍스트 엔지니어링(Context Engineering), 파트 4: 기업용 AI 설계 — 거버넌스, 비용 및 안전성

요약

핵심 포인트