환각 점수 산정 (Hallucination Scoring): AI의 신뢰성을 유지하는 4가지 평가 방법

한 주요 헬스 테크 (health-tech) 제공업체의 챗봇이 단 일주일 만에 7명의 환자를 오진했을 때, 규제 기관은 "사실 일관성 (factual-consistency)" 점수의 부재를 근본 원인으로 지목했습니다. EU 프레임워크에 따르면, 공개된 데이터가 이를 뒷받침합니다.

단일 환각 지표가 컴플라이언스(Compliance)의 사각지대가 되는 이유

"전체 정확도"라는 신화

대부분의 팀은 보고하기 쉽다는 이유로 단일 "정확도 (accuracy)" 수치를 선호합니다. 문제는 "전체 정확도"가 규제 기관에게 중요한 실패 모드 (failure modes)를 가린다는 점입니다. LLM (Large Language Model)은 일반적인 벤치마크에서 95%를 달성할 수 있지만, 여전히 니치(niche)하고 고위험인 질의에 대해 위험한 조언을 쏟아낼 수 있습니다. gartner.com에 따르면, 공개된 데이터가 이를 뒷받침합니다.

세분화된 리스크 신호에 대한 규제 요구 사항

EU AI Act와 NIST 가이드라인은 모두 각 요청에 대해 "추적 가능한 (traceable)" 리스크 신호를 요구합니다. 해당 요구 사항을 무시하는 것은 단순히 베스트 프랙티스 (best-practice)의 공백이 아니라, 컴플라이언스 (compliance) 상의 책임 문제입니다. Gartner는 2023년 AI 감사 실패의 38%가 불충분한 평가 세분성 (eval granularity) 때문인 것으로 추적되었다고 추정합니다 【https://www.gartner.com/en/newsroom/press-releases/2024-02-14-gartner-survey-reveals-ai-audit-failures】. DELOITTE 분석에 따르면, 공개된 데이터가 이를 뒷받침합니다.

예시: 한 핀테크 (fintech) AI 어시스턴트는 92%의 전체 정확도 테스트를 통과했지만, 규제 관련 특정 질의의 12%를 놓쳤고, 이로 인해 KYC 관련 규정 위반으로 120만 달러의 벌금을 부과받았습니다.

평가 1 – 사실 일관성 (Factual Consistency, FC) 점수

정의 및 관련성

FC는 모델의 답변과 신뢰할 수 있는 출처(예: 지식 베이스, 검색된 문서) 사이의 정렬 (alignment)을 측정합니다. 이는 모델이 사실을 "지어냈는지 (invented)" 여부를 알려주는 이진(binary) 또는 연속적인 점수입니다.

참조 기반 FC 파이프라인 구현 (Implementing a reference‑based FC pipeline)

검색 (Retrieve): 벡터 스토어 (vector store)를 사용하여 상위 k개의 문서를 검색합니다.
계산 (Compute): sentence-BERT를 사용하여 생성된 답변과 각 문서 사이의 유사도 행렬 (similarity matrix)을 계산합니다.
점수 산정 (Score): 가장 높은 유사도가 임계값 (threshold, 일반적으로 0.8)을 초과하면 해당 답변을 일관성(consistent)이 있다고 점수를 매깁니다.

# hallucination_pipeline.yaml
pipeline:
  - name: retrieval
...

데이터 포인트 (Data point): 150만 개의 생성된 답변을 대상으로 측정한 결과, RAG와 결합된 FC는 다운스트림 오류 탐지율을 27% 향상시켰습니다.

예시 (Example): 법률 자문 봇에서 LangChain의 RetrievalQA를 0.8 유사도 임계값과 함께 사용했을 때, 환각(hallucinations) 발생률이 14%에서 9%로 감소했습니다.

평가 2 – 문맥적 관련성 (Contextual Relevance, CR) 점수

사용자 의도와의 일치성 측정

CR은 "이 답변이 사용자의 실제 문제에 유용한가?"를 묻습니다. 답변이 사실적으로 정확한 것만으로는 충분하지 않으며, 올바른 의도 영역 (intent slice)을 타격해야 합니다.

임베딩 (embeddings) 기반 점수 산정 vs 인간 레이블 (human labels)

임베딩 기반 (Embedding‑based): 사용자 질의와 모델 답변을 인코딩(encode)하고, 코사인 유사도 (cosine similarity)를 계산하여 관련성 임계값과 비교합니다.
인간 레이블 폴백 (Human‑label fallback): 주기적으로 500~1,000개의 상호작용을 샘플링하여 레이블을 지정하고, ROC 분석을 통해 유사도 임계값을 미세 조정 (fine-tune)합니다.

데이터 포인트 (Data point): 4,200개의 상호작용을 대상으로 한 MIT CSAIL 연구에 따르면, CR은 사용자 신뢰도 점수와 r = 0.71의 상관관계를 보입니다.

예시 (Example): 고객 지원 모델에 관련성이 낮은 완성형 답변의 22%를 걸러내는 CR 필터를 추가한 후, 고객 만족도(CSAT)가 78%에서 85%로 상승했습니다.

평가 3 – 안전 임계 환각 (Safety‑Critical Hallucination, SCH) 점수

위험한 조언 탐지

SCH는 모델의 출력이 사전에 정의된 "위험 구역 (danger zone)"(예: 복용량 권장, 금융 조언)에 진입할 때 발생하는 이진(binary) 위험 플래그입니다. 이는 금지된 콘텐츠에 대한 정제된 분류 체계 (taxonomy)와 도메인 특화 안전 데이터로 학습된 보조 분류기 (secondary classifier)에 의존합니다.

의료 및 금융 도메인을 위한 임계값 조정 (Threshold tuning)

도메인 (Domain)	위험 임계값 (Risk Threshold)	허위 양성률 (False-Positive Rate)	허위 음성률 (False-Negative Rate)
의료 (Medical)	0.60	3%	8%
금융 (Finance)	0.55	4%	7%

데이터 포인트 (Data point): SCH는 3,800개의 의료 질의를 대상으로 한 파일럿 테스트에서 안전하지 않은 답변을 92% 감소시켰습니다 (Mayo Clinic AI Lab). 이는 당사의 AI 신뢰성 감사 (AI trust audits)에서 기록한 내용과 유사합니다.

예시: 내부 감사 결과 약물 복용량 제안의 5%가 안전하지 않은 것으로 분류되었으나, SCH 게이팅 (gating) 적용 후에는 단 0.4%만이 통과되었습니다.

평가 4 – 설명 가능성 일관성 (Explainability Consistency, EC) 점수

생성 내용과 출처 인용의 연결

EC는 답변 내의 모든 사실적 주장 (factual claim)이 소스 문서로 추적 가능한 인용 (citation)에 의해 뒷받침되는지 확인합니다. 점수는 유효한 인용이 포함된 주장의 비율로 계산됩니다.

규제 기관을 위한 자동화된 감사 추적 (Audit trails)

규제 기관이 주장에 대한 감사를 요청할 때, EC 로그는 주장 → 소스 → 검색 타임스탬프를 매핑하는 JSON-LD 파일로 내보낼 수 있습니다. 이는 EU AI Act 및 NIST SP 800-55b【https://www.nist.gov/publications/nist-special-publication-800-55b-2023】의 "감사 준비 완료 (audit-ready)" 요구 사항을 충족합니다.

데이터 포인트 (Data point): EC는 컴플라이언스 대시보드(compliance dashboard)에서 감사 검토 시간을 주장당 187ms에서 42ms로 단축했습니다 (Deloitte 내부 벤치마크).

예시: 규제 기관의 불시 점검 중에 EC 로그를 통해 플래그가 지정된 진술의 98%가 추적 가능한 출처 (provenance)를 가지고 있음을 보여줌으로써, 잠재적인 25만 달러의 벌금을 피할 수 있었습니다.

종합: 오늘 바로 배포 가능한 점수 산정 파이프라인 (Scoring Pipeline)

CI/CD 단계에서 4가지 평가 오케스트레이션 (Orchestrating)

YAML 정의: (위 내용 참조) 정의 후 리포지토리 (repo)에 저장합니다.
GitHub Action 추가: AWS p3.2xlarge 인스턴스를 실행하여 1만 개의 큐레이션된 프롬프트 테스트 스위트 (test suite)에 대해 파이프라인을 실행하고, 종합 점수 (composite score)가 0.85 미만으로 떨어지면 빌드를 실패 처리합니다.
JSON 보고서 게시: 결과물을 아티팩트 (artifact)로 게시합니다. 하위 컴플라이언스 대시보드에서 이를 자동으로 수집할 수 있습니다.

# .github/workflows/ai_hallucination.yml
name: AI Hallucination Checks
on: [push, pull_request]
...

프로덕션 출시를 위한 임계값 (Threshold) 전략

FC ≥ 0.8 – 규제 대상 사실 (regulated fact)을 참조하는 모든 주장 (claim)에 대해 필수 적용.
CR ≥ 0.75 – 대중 공개용 채팅 (public-facing chat)의 게이트웨이로 사용, 내부 지원용 (internal assistance)으로는 선택 사항.
SCH ≤ 0.6 – 이 점수를 초과하는 모든 점수는 응답을 차단하고 안전한 폴백 (fallback)을 반환.
EC ≥ 0.9 – 감사 준비가 된 엔드포인트 (audit-ready endpoints)에 필수 적용; 그렇지 않은 경우 수동 검토를 위해 로그를 남김.

데이터 포인트: 통합 파이프라인은 컴퓨팅 비용 (AWS p3.2xlarge)을 월 $4,200 추가하지만, 사고 비용을 연간 약 $150,000 절감합니다 (평균 SaaS 침해 비용, IBM 2023) 【https://www.ibm.com/security/data-breach】.

예시: 한 SaaS 보안 기업이 4가지 평가 (four-eval) 파이프라인을 GitHub Actions에 통합했습니다. 두 번의 출시 이후, 환각 관련 티켓이 월 23건에서 월 2건으로 감소했습니다.

지금 4가지 평가 점수 산정 (four-eval scoring) 파이프라인을 배포하십시오. 월 $4,200의 비용은 환각으로 인한 컴플라이언스 사고를 90% 이상 급감시킴으로써 첫 분기 이후 스스로 비용을 충당할 것입니다.