RAG에 계층적 방어 체계가 절실히 필요한 이유

웹 보안의 초기 시절을 기억하시나요? 우리는 단순한 방화벽만 있으면 충분하다고 생각했습니다. 그러다 SQL 인젝션 (SQL injection), 교차 사이트 스크립팅 (cross-site scripting), 그리고 수많은 공격들이 등장하면서 우리는 심층 방어 (defense in depth)를 구축해야만 했습니다. 우리는 현재 LLM (Large Language Models)에서도 이와 유사한 변곡점에 서 있습니다.

표준적인 RAG (Retrieval-Augmented Generation) 파이프라인에는 치명적인 취약점이 있습니다. 바로 검색 결과 (retrieval)를 맹목적으로 신뢰한다는 점입니다. 공격자가 단 하나의 문서로 지식 베이스 (knowledge base)를 오염시키면, 갑자기 여러분의 어시스턴트가 불법적인 조언을 하거나, 민감한 데이터를 노출하거나, 해로운 명령을 실행하게 됩니다. RAG에서 계층적 방어는 단순한 권장 사항이 아닙니다. 그것은 작동 가능한 유일한 아키텍처입니다.

RAG 가드레일 (Guardrails)이란 무엇인가?

가드레일은 입력값을 필터링하고, 검색된 콘텐츠를 검증하며, 출력값이 사용자에게 도달하기 전에 확인하는 체계적인 안전 체크포인트입니다. 가드레일 기반 파이프라인은 에이전트형 (agentic) 또는 RAG 솔루션 모두에 필수적입니다. 이는 광범위한 보안 리스크, 환각 (hallucinations), 규정 위반, 그리고 악의적인 프롬프트 (malicious prompts) 문제를 해결하기 때문입니다.

이러한 체크포인트들은 심층 방어 (defense-in-depth) 전략을 형성합니다. 만약 취약점이 하나의 계층을 통과하더라도, 두 번째의 더 강력한 계층이 이를 차단합니다.

가드레일이 차단해야 하는 세 가지 리스크 범주

리스크 범주	예시
콘텐츠 안전성 (Content Safety)	유해하거나, 증오를 조장하거나, 불법적이거나, 성적으로 노출이 심한 콘텐츠
...

가드레일 구현의 두 가지 유형

접근 방식	작동 방식	장점	단점
규칙 기반 (Rule‑based)	정규 표현식 (Regex), 키워드 목록, 결정론적 정책	빠르고 저렴하며 설명 가능하고 지연 시간이 낮음	새로운 공격을 놓칠 수 있고, 지속적인 업데이트가 필요하며, 오탐률 (false positives)이 높음
LLM 기반 (LLM‑based)	별도의 LLM이 입출력을 분류함	정확도가 높고 새로운 패턴에 적응하며 의도를 이해함	속도가 느리고 비용이 더 많이 들며, 적대적 문맥 (adversarial contexts)에 속을 수 있음

프로덕션 가드레일 계층의 구조

🔹 입력 가드레일 (Input Guardrails) (계층 1)

입력 가드레일 (Input guardrails)은 경계선 역할을 하며, 악의적이거나 무관한 사용자 프롬프트 (user prompts)가 에이전트 (agent)에 도달하기 전에 빠른 검사를 통해 필터링합니다. 최소한 모든 입력 가드레일은 다음을 포함해야 합니다:

유해 콘텐츠 탐지 (Harmful content detection) — 50ms 미만의 속도로 명백한 위반 사항을 거부하는 소형 분류기 (classifier)를 사용하여 욕설, 혐오 표현 및 위험한 주제를 사전에 차단합니다.
프롬프트 인젝션 탐지 (Prompt injection detection) — 시스템 지침을 무시하려는 시도를 스캔합니다. LLM 기반 탐지기는 정규 표현식 (regex)이 놓치는 부분을 잡아냅니다.
개인정보 (PII) 마스킹 (PII redaction) — 이메일, 전화번호, 신용카드, 사회보장번호 (SSN) 및 국가 식별 번호가 LLM이나 로그에 도달하기 전에 마스킹 처리합니다.

🔹 검색 가드레일 (Retrieval Guardrails) (계층 2)

검색 가드레일은 지식 베이스 (knowledge base)에서 오염되었거나 무관한 문서가 생성 (generation) 단계에 도달하기 전에 필터링합니다.

오늘날 최첨단 검색 가드레일은 **경사 기반 마스크 토큰 확률 (Gradient-based Masked Token Probability, GMTP)**입니다. 이는 적대적으로 제작된 문서를 필터링하여, 관련 문서는 유지하면서 오염된 콘텐츠의 90% 이상을 제거하는 탐지 방법입니다.

최소한 모든 검색 가드레일은 다음을 포함해야 합니다:

관련성 점수 산정 (Relevance scoring) — 상위 K개의 후보를 검색한 후, 전용 리랭커 (reranker)를 사용하여 무관한 청크 (chunks)가 LLM에 도달하기 전에 필터링합니다.
오염 탐지 (Poison detection) — 새로운 문서를 벡터 스토어 (vector store)에 추가하기 전에 GMTP 방식의 탐지기를 통해 검사합니다.
액세스 제어 (Access control) — 테넌트 (tenant), 부서, 기밀 수준 또는 역할에 따라 필터링하여 테넌트 간 데이터 유출을 방지합니다.

🔹 출력 가드레일 (Output Guardrails) (계층 3)

출력 가드레일은 최종 체크포인트 역할을 하며, 에이전트의 응답이 사용자에게 전송되기 전에 정확성과 준수 여부를 확인하여 정화합니다. 최소한 모든 출력 가드레일은 다음을 포함해야 합니다:

근거 확인 / 환각 체크 (Grounding / hallucination check) — 답변의 모든 주장이 검색된 컨텍스트 (context)에 의해 뒷받침되는지 확인합니다.
유해성 필터 (Toxicity filter) — 빠져나간 유해한 언어가 있는지 잡아냅니다.
인용 강제 (Citation enforcement) — LLM이 각 주장에 대해 특정 출처를 반드시 인용하도록 강제합니다.

가드레일 평가: 중요한 지표들

오프라인 평가 (CI)

평가 계층 (Evaluation Layer)	측정 항목	지표 예시
유닛 수준 (Unit-level, 빠르고 결정론적임)	스키마 준수 (Schema compliance), 개인정보 (PII) 존재 여부, 정책 준수	통과/실패율 (Pass/fail rate)
...

온라인 평가 (운영 환경)

온라인 평가 (Online evaluation)는 카나리 배포 (canary deployments), 섀도 모드 (shadow mode), 실시간 텔레메트리 (real-time telemetry)를 사용하여 라이브 트래픽을 모니터링함으로써 사용자가 인지하기 전에 드리프트 (drift)를 감지하며, 재현율 (recall), 답변 가능성 (answerability), 안전 트리거 (safety triggers) 및 비용 이상 징후 (cost anomalies)를 추적합니다.

연구를 통한 핵심 통찰: LLM 기반 가드레일은 RAG 컨텍스트 (RAG contexts)에 대해 견고하지 않습니다. 가드레일 컨텍스트에 무해한 문서를 삽입할 경우, 입력 가드레일 (input guardrails)의 경우 약 11%, 출력 가드레일 (output guardrails)의 경우 약 8%의 사례에서 판단이 변경됩니다. 이는 단일 가드레일 계층에 의존할 수 없음을 의미합니다. 하나가 실패하더라도 다른 하나가 실패를 잡아낼 수 있도록 여러 개의 독립적인 계층을 결합해야 합니다.

오늘 바로 배포할 수 있는 두 가지 오픈 소스 가드레일 프레임워크

Guardrails AI

Guardrails AI는 특정 유형의 리스크를 감지, 정량화 및 완화하는 입력/출력 가드 (Input/Output Guards)를 실행하여 신뢰할 수 있는 AI 애플리케이션 구축을 돕는 Python 프레임워크입니다. LangChain과 원활하게 통합되며, 사전 구축된 검증기 (validators)가 포함된 허브 (Hub)를 제공합니다.

설치:

pip install guardrails-ai langchain langchain_openai
guardrails hub install hub://guardrails/competitor_check --quiet
guardrails hub install hub://guardrails/toxic_language --quiet

LangChain과의 통합:

from langchain_openai import ChatOpenAI
from guardrails import Guard
from guardrails.hub import ToxicLanguage, CompetitorCheck
...

OpenGuardrails

OpenGuardrails는 문맥 인식형 안전성 및 조작 탐지 모델(context-aware safety and manipulation-detection model)과 포괄적인 AI 가드레일(guardrails)을 위한 배포 가능한 플랫폼을 모두 제공하는 최초의 오픈 소스(open-source) 프로젝트입니다. 이 프로젝트는 영어, 중국어 및 다국어 작업 전반에 걸친 안전성 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성하였으며, Apache 2.0 라이선스로 출시되었습니다. 또한 보안 게이트웨이(security gateway) 또는 API 서비스로 배포할 수 있으며, 완전한 프라이빗 배포(private deployment) 옵션을 제공합니다.

실제 구현 패턴 (Real-World Implementation Patterns)

패턴	해결 과제	구현 방식
다단계 검증 (Multi-stage validation)	심층 방어 (Defense-in-depth)	각 단계에서 체크를 수행하는 입력(Input) → 검색(retrieval) → 출력(output) 구조
...

기업 사례 연구: 부에노스아이레스 (Buenos Aires)

부에노스아이레스 시는 LangGraph와 Amazon Bedrock을 사용하여 에이전트형 AI(agentic AI) 시스템을 구현하였으며, 맞춤형 입력 가드레일을 통해 월간 300만 건 이상의 대화를 처리하면서도 유해한 질의를 100% 차단하는 성과를 거두었습니다. 이들의 가드레일은 LLM 분류기(LLM classifier)를 사용하여 질의를 승인됨(정부 절차 관련 주제) 또는 차단됨(공격적인 언어, 프롬프트 인젝션(prompt injection) 시도, 비윤리적 행동) 카테고리로 분류합니다.

핵심 요약 (The Bottom Line)

단일 가드레일만을 신뢰해서는 안 됩니다. 계층화된 시스템을 설계하십시오. 입력 가드레일(input guardrails)은 악의적인 프롬프트를 포착하고, 검색 가드레일(retrieval guardrails)은 오염된 문서를 필터링하며, 출력 가드레일(output guardrails)은 모든 답변을 검증합니다. 회귀 테스트(regression testing)를 위한 오프라인 평가(offline evaluation), 운영 환경의 드리프트(drift)를 위한 온라인 모니터링(online monitoring), 그리고 다중 폴백(fallback) 전략을 추가하십시오. 이 가이드에서 단 한 가지만 기억해야 한다면, 그것은 바로 심층 방어(defense in depth)만이 유일하게 신뢰할 수 있는 방어책이라는 점입니다.

구성 가능한 임계값(thresholds), 사전 구축된 데이터셋(일반 QA, 도메인 특화 지식, PII 스트레스 테스트, 탈옥(jailbreak) 프롬프트), 그리고 신뢰 점수 정책 엔진(trust-scoring policy engine)을 갖춘 프로덕션 참조 구현(production reference implementation)을 확인하려면 GitHub의 Guardrail Hallucination Detection 리포지토리를 확인하십시오.