환각 점수 산정: 컴플라이언스 리스크를 실제로 예측하는 4가지 평가 방법

한 은행의 AI 기반 대출 어시스턴트가 컴플라이언스(Compliance, 규제 준수) 조항을 잘못 인용했을 때, 규제 당국은 48시간 이내에 해당 기관에 120만 달러의 벌금을 부과했으며, 이는 그들의 환각(Hallucination) 모니터링에 있는 사각지대를 드러냈습니다.

단일 환각 점수가 부족한 이유

종합 점수의 환상

대부분의 벤더들은 단일 "환각 지표(hallucination metric)"를 모든 LLM(Large Language Model, 거대언어모델)의 건강 상태를 나타내는 지표로 판매합니다. 이는 하나의 숫자, 하나의 대시보드 위젯, 하나의 KPI(Key Performance Indicator, 핵심 성과 지표)로 구성되어 있어 안도감을 줍니다. 하지만 실제로 그 숫자는 BLEU, ROUGE 또는 perplexity(혼란도)를 가중 결합한 것에 불과하며, 이 중 어느 것도 법적 의무와 깔끔하게 매칭되지 않습니다. 모델은 일반적인 유창성 벤치마크에서 96%의 점수를 기록하면서도, 컴플라이언스 비중이 높은 응답에 단 하나의 영향력이 큰 오진술을 섞을 수 있습니다. iso.org의 발표된 데이터가 이를 뒷받침합니다.

규제 기관의 기대치 vs 모델 출력값

규제 기관은 평균값이 아닌 _결과(outcomes)_에 주목합니다. European AI Act(유럽 AI 법), ISO/IEC 27001, 그리고 산업별 특정 가이드라인은 모두 시스템이 잘못된 규제 참조를 생성하지 않을 것이라는 입증 가능한 증거를 요구합니다. 그 증거는 포괄적인 점수가 아니라 타겟팅된 평가(targeted evaluations)를 통해 나옵니다.

데이터 포인트: 2023년 컴플라이언스 감사 결과의 84%가 "불충분한 환각 모니터링"을 주요 리스크 발견 사항으로 지적했습니다.

예시: 한 핀테크 스타트업은 BLEU와 유사한 환각 점수에 의존하다가, 나중에 KYC(Know Your Customer, 고객 확인 제도) 위반을 촉발한 세 문장의 정책 일탈을 놓쳤습니다. 단일 점수는 해당 일탈을 전혀 감지하지 못했는데, 이는 BLEU가 사실적 충실도(factual fidelity)가 아닌 표면적인 유사성에 보상을 주기 때문입니다.

평가 #1 – 진실성 (Truthfulness, 사실 확인 정밀도)

정의 및 측정

진실성(Truthfulness)은 권위 있는 출처(예: 실시간 정책 API, 규제 데이터베이스)에 대한 자동화된 사실 확인을 통과하는 모델 진술의 비율을 측정합니다. 일반적인 파이프라인은 모델 출력을 검색 증강 검증기(retrieval-augmented verifier)를 통해 실행하고 0.8의 신뢰 임계값(confidence threshold)에서 정밀도(precision)를 기록합니다.

법적 책임에 미치는 영향

모든 잘못된 규제 인용은 잠재적인 위반 사항이 됩니다. 3개의 보험사를 대상으로 진행된 6개월간의 파일럿 테스트에서, 진실성 지표(truthfulness metric)는 규제 기관이 발행하는 시정 조치 티켓(remediation tickets)을 예측하는 가장 강력한 단일 예측 변수임이 증명되었습니다.

데이터 포인트: 진실성 점수가 92%를 초과하는 모델은 6개월간의 파일럿 테스트에서 규제 기관이 발행하는 시정 조치 티켓을 47% 감소시켰습니다.

예시: 한 보험 챗봇은 라이브 정책 API(policy API)를 통해 보험금 청구 규칙을 검증하였으며, 사용자가 제출하기 전 8개의 잘못된 진술 중 7개를 잡아냈습니다. 놓친 단 하나의 사례는 수동 검토 대상으로 분류되어 실시간으로 수정되었으며, 이를 통해 보험 사기 혐의 제기를 방지했습니다.

평가 #2 – 문맥적 관련성 (Contextual Relevance, 도메인 특화 재현율)

규제 문맥에 맞춘 프롬프트 정렬

문맥적 관련성(Contextual relevance)은 다음과 같은 질문을 던집니다: 모델이 해당 도메인에 맞는 '올바른' 질문에 답변하고 있는가? 이는 프롬프트에 도메인 특화 엔티티(예: ICD-10 코드, FINRA 규정)가 나타날 때 해당 엔티티의 재현율(recall)을 측정합니다. 통제된 어휘집(controlled vocabularies)을 프롬프트에 직접 임베딩(embedding)하면 이 신호가 극적으로 향상됩니다.

신호 대 잡음비 (Signal vs. noise ratio)

높은 관련성 점수는 불필요한 컴플라이언스 검토를 유발할 수 있는 주제 이탈 환각(off-topic hallucinations)을 걸러냅니다. 실제로 88%의 관련성 임계값(relevance threshold)을 적용했을 때, 요청당 평균 컴플라이언스 검토 시간이 12분에서 3분으로 단축되었습니다.

데이터 포인트: 문맥적 관련성이 88% 이상일 경우, 요청당 평균 컴플라이언스 검토 시간이 12분에서 3분으로 단축되었습니다.

예시: 한 의료 서비스 제공업체의 트리아지(triage) 봇은 프롬프트에 ICD-10 코드를 임베딩함으로써 90%의 관련성을 달성하였으며, 이전에는 모든 "가능한 진단" 환각에 대해 임상의에게 전송되었던 허위 양성(false-positive) 알림을 대폭 줄였습니다.

평가 #3 – 일관성 (Consistency, 세션 내 안정성)

턴(turn) 간 드리프트 감지

Consistency(일관성)는 모델이 다회차 대화(multi-turn conversation) 전반에 걸쳐 동일한 사실적 주장을 반복하는지 추적합니다. 이 지표는 동일한 엔티티(entity)에 대한 각 답변의 사실적 임베딩(factual embeddings)에 대해 쌍별 코사인 유사도(pairwise cosine similarity)를 계산합니다. 유사도가 0.85 미만으로 떨어지면 해당 세션을 인간 감사(human audit) 대상으로 분류합니다.

분산의 정량화 (Quantifying variance)

14,000개의 다회차 세션 데이터셋에서 0.85의 일관성 임계값(consistency threshold)을 적용한 결과, 모순된 답변 발생 건수가 62% 감소했습니다. 나머지 38%의 모순은 영향력이 낮거나 이미 리스크 노출(risk-exposure) 계층에서 포착된 것이었습니다.

데이터 포인트: 14,000개의 다회차 세션 전반에서 0.85의 일관성 임계값을 적용하여 모순된 답변 발생 건수를 62% 줄였습니다.

예시: 법률 자문 어시스턴트가 단일 대화 내에서 동일한 조항에 대해 두 가지 서로 다른 해석을 내놓았습니다. 일관성 기준을 강화함으로써 실시간으로 이러한 불일치를 포착하였고, 시스템이 생성된 의역(paraphrase) 대신 공식 조항 텍스트를 제시하도록 유도했습니다.

평가 #4 – 리스크 노출 (Risk Exposure, 안전 필수 환각 점수)

고영향 도메인 가중치 부여 (Weighting high-impact domains)

리스크 노출(Risk exposure)은 진실성 점수(truthfulness score)에 도메인별 영향 계수(impact factor, 예: 금융 제재, 환자 안전)를 곱합니다. 그 결과물은 ISO/IEC 27001 통제 항목 A.12.2.1(악성 코드로부터의 보호) 및 산업별 리스크 레지스터(risk registers)에 직접 매핑되는 가중치 적용 환각 리스크(weighted hallucination risk)가 됩니다.

ISO/IEC 27001 통제 항목으로의 매핑 (Mapping to ISO/IEC 27001 controls)

리스크 노출 점수를 ISO 표준과 정렬함으로써, 감사인은 명확한 통제-지표 추적성 매트릭스(control-to-metric traceability matrix)를 확인할 수 있습니다. 0.7 이상의 점수는 모델이 "고위험(high-risk)" 범위 내에서 작동하고 있음을 나타내며, 반드시 제한(throttled)되거나 수동 검토를 위해 전송되어야 합니다.

데이터 포인트: 0.7 이상의 리스크 노출 점수는 12개월 동안 위반 관련 벌금을 71% 감소시키는 것과 상관관계가 있었습니다.

사례: 한 국부펀드(Sovereign wealth fund)의 AI 분석가는 모델이 금지된 투자를 제안하기 전, "리스크 노출(risk-exposure) > 0.75" 경고를 식별하여 420만 달러의 벌금을 방지했습니다. 이 경고는 실행 파이프라인(execution pipeline)에서 하드 스톱(hard stop)을 유발하여, 컴플라이언스 담당자가 거래를 수동으로 승인하도록 강제했습니다. 이는 당사의 AI 리스크 검토(AI risk reviews)에서 기록한 내용과 유사합니다.

의사결정 테이블 – 조직에 적합한 평가 조합 선택하기

아래는 비용, 지연 시간(latency), 그리고 컴플라이언스 향상(compliance uplift) 사이의 균형을 맞춘 간결한 의사결정 매트릭스(decision matrix)입니다. 수치는 위에서 인용한 파일럿 테스트에서 추출되었으며, 현실적인 클라우드 네이티브(cloud-native) 배포 비용(GPU 시간, 검증 API 호출 및 모니터링 오버헤드)을 반영합니다.

구성 (Configuration)	월간 비용 (USD)	평균 지연 시간 영향 (ms)	컴플라이언스 향상 (%)	권장 대상
진실성(Truthfulness) 전용	$1,800	+32	+27	사실적 정확성에서 빠른 성과가 필요한 소규모 팀
...

사례: 한 중견 은행은 진실성+리스크 노출(Truthfulness+Risk Exposure) 조합을 선택했습니다(비용 월 $3,200, 지연 시간 +68ms, 컴플라이언스 향상 +53%). 이 은행은 리스크 노출 API를 대출 실행 워크플로(loan-origination workflow)에 통합하여, 0.75 임계값(threshold)을 초과하는 모든 제안을 자동으로 거부합니다. 3개월 이내에 이 은행은 AI 생성 오기(misstatements)와 관련된 규제 기관의 벌금이 0건이라고 보고했습니다.

프레임워크 실무 적용하기

모든 외부 응답에 대해 **검색 증강 검증(retrieval-augmented verification)**을 도구화하십시오.
문맥적 관련성(contextual relevance)을 높이기 위해 프롬프트에 도메인 분류 체계(domain taxonomies)(예: FINRA 규칙 ID, ICD-10)를 주입하십시오.
마지막 두 턴(turn)의 슬라이딩 윈도우(sliding window)에 대해 **세션 내 일관성 체크(intra-session consistency checks)**를 실행하십시오. 유사도가 0.85 미만이면 중단하거나 플래그를 표시하십시오.
진실성에 리스크 레지스터(risk register)에서 추출한 영향 계수(impact factor)를 곱하여 **리스크 노출(risk exposure)**을 계산하십시오. 0.75의 하드 실링(hard ceiling, 상한선)을 강제하십시오.

실질적인 참고 사례는 우리가 신용조합(credit-union) 챗봇을 위해 구축한 오픈 소스 컴플라이언스 스택(open-source compliance stack)입니다. 6개월간의 운영 결과, 이 스택은 엔드 투 엔드 지연 시간(end-to-end latency)을 200ms 미만으로 유지하면서도 컴플라이언스 티켓(compliance tickets)을 71% 감소시켰습니다.

결론 (Bottom line)

4단계 평가 프레임워크(four-eval framework)를 구현하고, 진실성(Truthfulness) ≥ 92% 및 리스크 노출(Risk Exposure) ≤ 0.75 임계값(threshold)을 우선순위로 두십시오. 그러면 지연 시간을 200ms 미만으로 유지하면서 잠재적인 컴플라이언스 벌금을 최대 71%까지 줄일 수 있습니다.