0% vs 50%: RAG 에이전트가 환각(Hallucination)을 거부하게 만드는 방법

요약

RAG 에이전트의 환각 문제를 해결하기 위해 답변 거부(Abstention) 메커니즘과 검증 단계를 도입하는 방법을 설명합니다. 프롬프트 가드레일과 평가 하네스를 통해 코퍼스 외 환각 발생률을 50%에서 0%로 낮추는 실무적인 접근법을 제시합니다.

핵심 포인트

답변 거부를 기능으로 정의하여 환각 방지
검색된 컨텍스트에 근거한 답변 검증 단계 필수
평가 하네스를 통한 근거성(Groundedness) 측정 중요
코퍼스 외 환각률을 핵심 성능 지표로 관리

0 % vs 50 %: RAG 에이전트가 환각(Hallucination)을 거부하게 만드는 방법

2026-05-31 · LLM / RAG

검색 증강 에이전트(Retrieval-augmented agent)의 신뢰성은 정답이 코퍼스(Corpus)에 없는 질문에 대해 어떻게 행동하느냐에 달려 있습니다. 실패 모드는 매우 조용합니다. 모델은 "모릅니다"라고 말하는 대신, 자신감 있고 문장 구조가 완벽하지만 틀린 답을 지어냅니다. 이 포스트에서는 이러한 현상을 흔한 수준에서 거의 발생하지 않는 수준으로 낮춰주는 단 하나의 가드레일(Guardrail)을 소개하며, 결정적으로 이를 어떻게 _측정(Measure)_하는지 보여줍니다.

참조 아키텍처:
nim-agent-blueprint — 내장된 평가 하네스(Eval harness)를 갖춘 NVIDIA NIM 스택 기반의 에이전트형 RAG.

절제 실험 (The ablation)

에이전트 루프는 계획(Plan) → 검색(Retrieve) → 생성(Generate) → 검증(Validate) 단계로 구성됩니다. 흥미로운 변수는 검색된 컨텍스트(Context)와 생성 프롬프트(Generation prompt) 사이의 계약입니다.

설정	코퍼스 외 환각(Out-of-corpus hallucination) 발생률
컨텍스트로부터 자유롭게 생성	~50 %
가드레일이 적용된 프롬프트 (컨텍스트에서만 답변; 그렇지 않으면 답변을 삼가도록 함)	0 %

동일한 모델, 동일한 검색기(Retriever), 동일한 질문을 사용했습니다. 유일한 차이점은 "제공된 소스로는 답변할 수 없습니다"라는 출력을 일급 시민(First-class)이자 보상받는 출력으로 만드는 프롬프트, 그리고 답변을 반환하기 전에 답변이 검색된 구간(Spans)에 근거(Grounded)하고 있는지 확인하는 검증(Validate) 단계의 추가입니다. 코퍼스 내 질문에 대해서는 검색 Recall@3가 94–100 %를 유지했으므로, 이 가드레일은 커버리지(Coverage)를 희생하지 않고 안전성을 확보해 줍니다.

왜 "프롬프트만 더 잘 쓰면 된다"가 교훈이 아닌가

여기서 얻어야 할 교훈은 프롬프트 자체가 아닙니다. 50 %와 0 %의 차이는 평가 하네스(Eval harness) 없이는 보이지 않는다는 점입니다. 코퍼스 내의 질문만 던지는 데모는 두 설정 모두에서 완벽해 보입니다. 코퍼스가 답변할 수 없는 내용을 의도적으로 질문하고 _근거성(Groundedness)을 점수화_할 때만 50 %의 오류를 확인할 수 있습니다. 따라서 이 블루프린트에는 다음 항목들이 포함되어 배포됩니다:

검색 적중률 (Retrieval hit-rate) (답변이 검색 가능한가?),
LLM-as-judge를 통한 답변 근거성 (Answer groundedness) (답변이 검색된 내용에 의해 뒷받침되는가?),
지연 시간 (Latency), 그리고 에이전트 단계별 OpenTelemetry 트레이스(Traces).

그것이 바로 "내 질문 5개에는 작동한다"와 "파트너가 나에게 책임을 물을 수 있는 수치" 사이의 차이입니다.

핵심 요약 (Takeaway)

엔터프라이즈 RAG (Retrieval-Augmented Generation)에서 답변 거부 (Abstention)는 실패가 아니라 하나의 기능입니다. "모릅니다"를 보상받는 출력값으로 만들고, 답변을 반환하기 전에 근거성 (Groundedness)을 검증하며, **코퍼스 외 비율 (Out-of-corpus rate)**을 측정하십시오. 이 수치가 바로 데모 수준의 결과물과 고객 앞에 내놓을 수 있는 제품을 구분 짓는 지표입니다.

→ Runnable 블루프린트 + 평가 하네스 (Eval harness):
github.com/waynehacking8/nim-agent-blueprint

AI 자동 생성 콘텐츠

원문 바로가기