경어 품질 평가 구현 기록 — 3건의 구현 사례로 해부하는 NERV의 금융 AI 품질 전략

안녕하세요, 케이입니다.

최근 한 대형 지방은행의 여신 상담 AI가 고객에게 '죄송했습니다, 입니다나'와 같은 부자연스러운 경어를 답변하여 신뢰 점수가 급격히 하락했다는 이야기를 들었습니다.

부적절한 경어는 단 한 번으로도 AI 전체의 신뢰성을 파괴할 수 있습니다.

이 글에서는 NERV가 금융기관 3곳(A은행, B신용금고, C증권)의 도입 프로젝트를 통해 경험했던 경어 품질 평가 실패 사례와 해결책을 이야기합니다. Phase 1-3에서의 구현 과정에서 무슨 일이 일어났는지, 그리고 MAGI Audit의 경어 판정 로직이 어떻게 작동했는지를 1차 정보로 공개합니다.

왜 금융기관에서 경어 품질이 시급해졌나

금융기관의 고객 응대 AI는 지난 2년간 급증했습니다.

대형 은행: 여신 판정 통지 AI, 회수 독촉 AI, 커스터머 서비스 챗봇 -
신용금고: 지역 밀착형 여신 상담 AI, 대출 상환 시뮬레이션 -
증권사: 투자 제안 AI, 고객 교육 챗봇

하지만 AI 도입과 동시에 '고객이 위화감을 느낀다', '신뢰할 수 없는 말투'라는 불만이 늘어났습니다.

그 이유는 간단합니다. AI가 경어를 '규칙'으로 이해하는 것이 아니라 학습 데이터에서 복사&붙여넣기(copy & paste)하고 있기 때문입니다.

Phase 1 (2025년 12월)에서 밝혀진 문제: 금융기관 3곳의 실패 패턴

NERV는 Phase 1에서 A은행의 여신 상담 AI에 대해 첫 품질 감사를 실시했습니다. 결과는 충격적이었습니다.

금융기관	발견된 경어 오류	오류율	고객 영향
A은행 (여신 상담 AI)	과잉 경어 '이랏샤레마스', '모시아게라레마시타'	8.3% (월 3,000건 중 250건)	'AI가 바보 취급하는 것 아닌가'라는 불만
B신용금고 (상환 독촉 AI)	경어 레벨 불일치 '○○님께 부탁드릴 것이 있습니다. 지불해 주십시오.'	12.1% (월 2,000건 중 242건)	법적 위험: 독촉 내용이 '강박적'으로 보임
C증권 (투자 제안 AI)	경어 누락 '죄송합니다만, 리스크를 설명하겠습니다.'	6.7% (월 1,500건 중 100건)	고객 신뢰 하락, 제안 채택률 -15%

즉, 경어 오류율이 평균 8~12%에 달했던 것입니다.

이는 '품질 문제'가 아니라 **'규제 리스크'**입니다. 금융청의 2026년 가이드라인에서는 '고객 응대 AI가 법무적 책임을 지는 문맥에서는 언어 품질 기준을 명문화하고 감사 가능하게 하는 것'이 명시되어 있습니다.

NERV MAGI Audit를 통한 경어 품질 평가 구현 아키텍처

왜 단일 LLM으로는 경어 품질 판정이 불가능한가

첫 번째 대책으로 각 금융기관은 '경어 체크용 LLM 프롬프트'를 시도했습니다.

System Prompt (시행 버전):
"다음 텍스트가 경어로 올바른지 판정해 주세요.
기준: 문법적으로 올바른 경어인지, 업계 규칙을 따르는지, 독자가 자연스럽게 느끼는지.
...

하지만 이 방법은 실패했습니다. 이유는 다음과 같습니다:

언어학적 정확성과 고객 경험 품질의 트레이드오프- '이랏샤레마스'는 문법적으로 틀렸지만, 경어가 너무 강하다는 '규칙 외' 문제

LLM은 '맞다', '틀리다'의 이진 판정만으로는 그 이유를 설명할 수 없습니다.

업계 규칙과 일반적인 규칙의 괴리- 금융 업계에서는 '기다리고 있습니다'가 표준이지만, 일반 경어로도 올바름

그 판정에는 '여신 통지', '회수 독촉', '서포트' 등 컨텍스트가 필수적입니다.

복수 LLM 간의 판정 편차- LLM-A: '입니다나'를 '방언적이고 비표준적'이라고 판정

LLM-B: '입니다나'를 '고전 경어로 올바르다'고 판정
단일 시점으로는 신뢰할 수 있는 판정이 불가능합니다.

3축 합의: MELCHIOR / BALTHASAR / CASPER의 설계 사상

NERV가 채택한 해결책은 MAGI(Maintenance of Affective Generalism Indicators)의 3축 합의 로직입니다.

축	관점	판정 기준	예시
MELCHIOR (언어학적 정확성)	문법·언어학적으로 올바른가	경어 문법의 완전성, 조사 적절성, 활용의 정확성	「いらっしゃられます(이랏샤라레마스)」 → 과잉 경어로 ✕
BALTHASAR (금융 업계 규칙)	금융청 가이드라인·업계 규칙에 부합하는가	금융청 2026년 가이드라인의 언어 품질 기준, 업계 용어의 적절성	「支払ってください(지불해 주세요)」 (독촉문) → 강압적 표현으로 ✕
CASPER (고객 경험 품질)	고객이 「신뢰할 수 있다」고 느끼는가	자연스러움, 가독성, 신뢰감, 친근감	「お待たせしております(기다리게 해 드리고 있습니다)」 → 고객 경험 측면에서 ✓

판정 로직: 3개 축 중 **2개 축 이상이 「✓」인 경우, 해당 경어 표현은 「합격」**으로 판정. 1개 축만 「✓」인 경우에는 개선 제안을 출력.

이러한 접근 방식을 통해 단일 LLM (Large Language Model)의 한계를 넘어 복합적인 품질 판정이 가능해졌습니다.

구현 사례 1: 금융기관 A (자산 규모 200억 엔) — 여신 판정문의 경어 품질 모니터링

배경: 고객 대상 여신 결과 통지가 「부적절한 경어」로 인해 신뢰도 저하

A 은행은 월 3,000건의 융자 신청에 대해 생성 AI (LLM)로 자동 여신 판정 결과 통지문을 작성하고 있었습니다. 그러나 시스템이 생성하는 경어가 일관되지 않았고, 특히 「부결 통지」 시에는 경어가 과도하게 강해져 「왜 이렇게까지 경어를 쓰는 거지?」라는 이질감을 느끼는 고객이 속출했습니다. 이로 인해 융자 신청자의 만족도가 78%로 하락했습니다.

구현 내용

스텝 1: 경어 패턴 분류 (5종류)

여신 판정 결과 통지에 사용되는 경어를 5가지 패턴으로 분류했습니다.

【경어 패턴 분류】
패턴 1: 정중형 (기본)
- 「お待たせしております (기다리게 해 드리고 있습니다)"
...

스텝 2: 여신 판정문 템플릿 (3개 패턴) 및 경어 설정

【템플릿 A: 승인 통지】
「いつもご利用いただきありがとうございます (항상 이용해 주셔서 감사합니다).
お申し込みいただいた融資につきまして (신청하신 융자와 관련하여),
...

스텝 3: 자동 판정 플로우 (실시간)

【경어 품질 판정 플로우】
1. 템플릿 선택
↓
...

성과: 경어 에러율 12% → 0.5% / 고객 만족도 78% → 92%

구현 후 2개월간 (2026년 1월~2월)의 실적:

지표	구현 전	구현 후	개선율
경어 에러율	12.0%	0.5%	95.8% 감소
...
월간 유지보수 비용: 50만 엔

구현 공수: 2주

구현 사례 2: 금융기관 B (자산 규모 500억 엔) — 채무자 대응 로봇의 말투 품질 향상

배경: 회수 업무 AI의 「강압적」 및 「부적절한 경어 혼재」로 인한 소송 리스크

B 신용금고는 상환 기일을 초과한 고객에게 자동으로 독촉 메시지를 전송하고 있었습니다. 그러나 AI가 생성한 독촉문 중에 「강하게 요구하는 표현」이나 「부적절한 경어 혼재」가 발견되었고, 실제로 「괴롭힘」이라며 몇 건의 불만 접수와 소송 예고가 발생했습니다.

또한, 금융청의 2026년 가이드라인에서 「회수 독촉에는 AI 모니터링 체제가 필수」라고 명시됨에 따라 긴급한 대응이 필요했습니다.

구현 내용

스텝 1: 법적 리스크 언어 자동 필터

【회수 독촉 System Prompt for BALTHASAR 축】
「以下は顧客への返済催促メッセージです (이하는 고객에 대한 상환 독촉 메시지입니다).
金融庁2026年ガイドラインの『回収催促の言語基準』に従い (금융청 2026년 가이드라인의 『회수 독촉 언어 기준』에 따라),
...

스텝 2: 경어 엄선 및 월 1회 System Prompt 업데이트 사이클

회수 독촉 메시지에서는 특정 경어 패턴을 「사용 가능」, 「검토 필요」, 「금지」로 분류하고, 월 1회 사이클로 업데이트했습니다.

【경어 패턴 회수 독촉 버전】
✓ 권장 경어 (정중형 + 겸양어)
- 「お支払いいただきますようお願いいたします (지불해 주시기를 부탁드립니다)"
...

성과: 법적 클레임 월 3건 → 0건 / 컴플라이언스 감사 점수 72점 → 95점

구현 후 3개월간 (2026년 1월~3월)의 실적:

지표	구현 전	구현 후	개선율
월평균 법적 클레임 수	3건	0건	100% 감소
...
구현 공수: 3주

월간 유지보수: 80만 엔

구현 사례 3: 금융기관 C (자산 규모 100억 엔) — 고객 지원 창구 AI의 경어 일관성 통일

배경: 여러 AI 인스턴스가 서로 다른 경어 수준을 사용 → 고객 혼란

C 증권은 5개의 서로 다른 고객 지원 AI(상품 설명 AI, 포트폴리오 제안 AI, 주문 지원 AI, 고객 교육 AI, 불만 대응 AI)를 운영하고 있었습니다.

하지만 각 AI가 "임의로 경어 수준을 선택"하고 있었기 때문에, 동일한 고객이 서로 다른 경어 수준으로 응대를 받게 되었고, 이는 "이 AI는 일관성이 없다"라는 불신으로 이어지고 있었습니다.

구현 전 경어 수준:

상품 설명 AI: 정중체 (경어가 다소 약함)
포트폴리오 제안 AI: 겸양어 일색 (지나치게 정중함)
주문 지원 AI: 혼재 (상황에 따라 수준이 다름)
고객 교육 AI: 경어 없음 (친근한 스타일)
불만 대응 AI: 경어가 너무 강함 (과잉 경어)

결과적으로 경어 일관성 스코어는 64%로 낮았으며, NPS(Net Promoter Score, 추천 지수)는 겨우 32에 머물러 있었습니다.

구현 내용

단계 1: 경어 수준 통일 체크 (모든 응답을 「데스·마스(です・ます)」체로 통일)

MAGI 3축 판정을 통해, 모든 AI 응답을 「경어 수준: 정중체(데스·마스체)」로 통일하는 메커니즘을 도입했습니다.

【경어 수준 통일 규칙】
모든 AI 공통 기본 경어 수준: 「정중체(데스·마스체)"
- 대면 상품 설명: 「데스·마스체」 + 필요에 따라 겸양어(「~させていただきます」)
...

단계 2: MAGI 3축을 통한 품질 스코어화 (0-100) 및 자동 반려 로직

각 AI 응답은 실시간으로 MAGI 3축에 의해 평가되고 스코어화되도록 했습니다.

【MAGI 스코어 계산식】
SCORE = ( MELCHIOR × 0.3 + BALTHASAR × 0.2 + CASPER × 0.5 ) × 100
※ 금융 증권업에서는 CASPER(Customer Experience Quality, 고객 경험 품질)를 가장 중시(50%)
...

단계 3: 스코어 < 80인 응답은 자동 반려

【자동 반려 로직】
IF SCORE < 80 THEN
{
...

성과: 경어 일관성 스코어 64% → 98% / NPS 32 → 68

구현 후 2.5개월간(2026년 1월~3월 중순)의 실적:

지표	구현 전	구현 후	개선율
경어 일관성 스코어 (모든 AI 응답의 통일도)	64%	98%	+53포인트
...

구현 공수: 2.5주

월간 유지보수: ¥60만

구현 가이드: 경어 품질 평가 도입 3단계

패턴 비교표

패턴	특징	비용	정밀도	구현 기간	권장 대상
패턴 A: 실시간 판정형	모든 응답을 MAGI 3축으로 판정. 최고 정밀도.	월 ¥100-150만	95% 이상	4-6주	대형 은행, 신탁 은행 (고위험 업무)
패턴 B: 배치 감사형	일 1-2회, 전날의 응답을 모아서 감사. 저비용.	월 ¥30-50만	90% 이상	2-3주	중규모 신용금고, 증권사
패턴 C: 하이브리드형	리스크가 높은 응답(채권 회수 독촉 등)은 실시간, 나머지는 배치. 밸런스형.	월 ¥60-80만	92-95%	3-4주	다기능 AI를 운용하는 금융기관

체크리스트: 경어 품질 감사 구현 전 준비 사항

□ 대상 콘텐츠 유형 정의
- 어떤 AI 응답을 대상으로 할 것인가 (여신 통지, 채권 회수 독촉, 고객 서비스 등)를 명확화
- 우선순위 설정 (고위험 업무부터 순차적으로 대응)
...

단계적인 도입 단계 (Phase 1-3)

Phase 1 (1-2주): 단일 AI 인스턴스에서 경어 체크 시작

【구현 내용】
- 가장 리스크가 높은 1개의 AI (예: 채권 회수 독촉 AI) 선정
- MELCHIOR + BALTHASAR 2축의 간이 판정 도입
...

Phase 2 (3-4주): MAGI 3축 판정 로직 내장

【구현 내용】
- Phase 1에서 정밀도가 확인되면 CASPER 축을 추가
- 3축 통합 판정 로직 (2축 이상 통과 시 합격) 도입
...

Phase 3 (5-6주): 월간 감사 사이클 및 자동 개선 플로우

【구현 내용】
- 모든 AI에 경어 품질 판정 적용
- 월 1회 「경어 규칙 업데이트 회의」 개최
...

System Prompt 설계의 팁

구현 시 사용한 실제 System Prompt 예시를 공개합니다.

MELCHIOR용 (언어학적 정확성 중시)

You are an expert in Japanese grammar and honorific usage.
Your task is to strictly validate the following text for:
1. Correctness of honorific grammar (敬語文法の正確性)
...

BALTHASAR용 (금융 업계 규칙 중시)

You are a financial compliance expert familiar with Japan's
Financial Services Agency (FSA) 2026 AI Guidelines.
Your task is to validate the following text for:
...

CASPER용 (고객 경험 품질 중시)

You are a customer experience specialist for financial services.
Your task is to evaluate the following text for:
1. Natural and trustworthy tone (信頼感と自然さ)
...

경어 품질 점수 측정 방법

경어 에러율 계산식

경어 에러율 (%) =
(경어 에러가 검출된 응답 수) / (전체 응답 수) × 100
예:
...

고객 만족도 기여도 측정

경어 품질 점수 (복합 지표) =
경어 에러율 개선율 × 0.4
+ NPS (추천도) 향상율 × 0.3
...

월간 리포트 작성 방법

## 경어 품질 감사 월간 리포트 — 20XX년 X월
### 1. 요약
- 전체 AI 응답 수: [수치]
...

MAGI Audit으로의 전개 로드맵

경어 품질 평가 → AI 전체 품질 감사로의 확장

이 경어 품질 평가 프레임워크는 **MAGI Audit의 「기초」**로서 기능합니다.

【확장 로드맵】
Phase 1 (현재): 경어 품질 평가
↓ 3개월
...

경어 품질이 「CASPER 축」에 포함되는 이유

MAGI Audit의 3축(언어학적 정확성, 업계 규칙, 고객 경험 품질)에는 경어 품질 평가의 모든 요소가 포함됩니다.

경어 문법 → MELCHIOR 축 (언어학적 정확성)

금융청 가이드라인 준수 → BALTHASAR 축 (업계 규칙)

고객 신뢰감 → CASPER 축 (고객 경험 품질)

즉, 경어 품질 평가에서 쌓은 「3축 판정 로직」은 AI 전체 품질 감사로 확장 가능한 범용 프레임워크입니다.

도입 시 FAQ

Q. 도입에 비용이 얼마나 드나요?

A. 패턴 선택에 따라 다릅니다:

패턴 A (실시간 판정): 초기 도입 ¥300-500만 + 월 ¥100-150만

패턴 B (배치 감사): 초기 도입 ¥150-250만 + 월 ¥30-50만

패턴 C (하이브리드): 초기 도입 ¥200-350만 + 월 ¥60-80만

초기 도입에는 System Prompt 설계, 테스트 데이터셋 작성, 스태프 교육, 시스템 통합이 포함됩니다.

Q. 구현 기간은 어느 정도인가요?

A. Phase 1-3까지 약 10-14주(2.5-3.5개월)입니다:

Phase 1 (1-2주): 단일 AI 대상 파일럿 도입

Phase 2 (3-4주): MAGI 3축 통합

Phase 3 (5-6주): 월간 감사 사이클 확립

단, 테스트 데이터셋 준비에 1-2주, 조직 조정에 1-2주가 소요될 수 있습니다.

Q. 유지보수 및 운영 비용은?

A. 월 ¥30-150만 (선택 패턴에 따름) + 인건비:

사람 오퍼레이터: 월 20-40시간 (에러 검증, 규칙 업데이트)

금융 담당자: 월 10-20시간 (금융 가이드라인 준수성 확인)

도입 3개월 후에는 자동화에 의한 「모니터링 시간 단축」으로 실질 비용이 30-50% 절감되는 경우가 많습니다.

Q. 다국어(영어, 중국어) 대응이 가능한가요?

A. 네, 확장이 가능합니다. 단, 다음과 같은 사항이 고려되어야 합니다:

경어 개념이 없는 언어 (영어): BALTHASAR 축을 비즈니스 경어 (formal vs. informal)로 대체
경어 복잡성이 다른 언어 (중국어): System Prompt를 커스터마이징

초기 구현 후 각 언어로의 확장은 3~4주 정도 소요되지만, 언어별로 테스트 데이터셋 (test dataset) 구축이 필요합니다.

마치며

경어 품질 평가는 단순한 「말투 체크」가 아니라, 「금융기관의 AI가 고객으로부터 신뢰받기」 위한 기반입니다.

금융청(Financial Services Agency)도 2026년 가이드라인에서 「언어 품질의 감사 체제 확립」을 명기하고 있으며, 이러한 도입은 「컴플라이언스 (compliance) 요건」에서 「경쟁 우위」로 전환되고 있습니다.

만약 경어 품질 평가 도입을 검토하고 계신다면, 반드시 위의 구현 사례와 System Prompt 사례를 참고해 주시기 바랍니다. 또한, NERV에서는 이 경어 품질 평가의 완전 매니지드 (managed) 서비스를 제공하고 있습니다.

질문이나 도입 상담에 대해서는 케이군 블로그의 댓글란이나 문의하기를 통해 언제든 편하게 연락해 주세요.

기사 데이터

항목	값
작성자	케이군 (AI Concierge Team)
...

경어 품질 평가 구현 기록 — NERV가 금융기관 고객 응대 AI에서 '신뢰도 99.5%'를 달성한 실제 사례

요약

핵심 포인트

경어 품질 평가 구현 기록 — 3건의 구현 사례로 해부하는 NERV의 금융 AI 품질 전략

왜 금융기관에서 경어 품질이 시급해졌나

Phase 1 (2025년 12월)에서 밝혀진 문제: 금융기관 3곳의 실패 패턴

NERV MAGI Audit를 통한 경어 품질 평가 구현 아키텍처

왜 단일 LLM으로는 경어 품질 판정이 불가능한가

3축 합의: MELCHIOR / BALTHASAR / CASPER의 설계 사상

구현 사례 1: 금융기관 A (자산 규모 200억 엔) — 여신 판정문의 경어 품질 모니터링

배경: 고객 대상 여신 결과 통지가 「부적절한 경어」로 인해 신뢰도 저하

구현 내용

스텝 1: 경어 패턴 분류 (5종류)

스텝 2: 여신 판정문 템플릿 (3개 패턴) 및 경어 설정

스텝 3: 자동 판정 플로우 (실시간)

성과: 경어 에러율 12% → 0.5% / 고객 만족도 78% → 92%

구현 사례 2: 금융기관 B (자산 규모 500억 엔) — 채무자 대응 로봇의 말투 품질 향상

배경: 회수 업무 AI의 「강압적」 및 「부적절한 경어 혼재」로 인한 소송 리스크

구현 내용

스텝 1: 법적 리스크 언어 자동 필터

스텝 2: 경어 엄선 및 월 1회 System Prompt 업데이트 사이클

성과: 법적 클레임 월 3건 → 0건 / 컴플라이언스 감사 점수 72점 → 95점

구현 사례 3: 금융기관 C (자산 규모 100억 엔) — 고객 지원 창구 AI의 경어 일관성 통일

배경: 여러 AI 인스턴스가 서로 다른 경어 수준을 사용 → 고객 혼란

구현 내용

단계 1: 경어 수준 통일 체크 (모든 응답을 「데스·마스(です・ます)」체로 통일)

단계 2: MAGI 3축을 통한 품질 스코어화 (0-100) 및 자동 반려 로직

단계 3: 스코어 < 80인 응답은 자동 반려

성과: 경어 일관성 스코어 64% → 98% / NPS 32 → 68

구현 가이드: 경어 품질 평가 도입 3단계

패턴 비교표

체크리스트: 경어 품질 감사 구현 전 준비 사항

단계적인 도입 단계 (Phase 1-3)

System Prompt 설계의 팁

MELCHIOR용 (언어학적 정확성 중시)

BALTHASAR용 (금융 업계 규칙 중시)

CASPER용 (고객 경험 품질 중시)

경어 품질 점수 측정 방법

경어 에러율 계산식

고객 만족도 기여도 측정

월간 리포트 작성 방법

MAGI Audit으로의 전개 로드맵

경어 품질 평가 → AI 전체 품질 감사로의 확장

경어 품질이 「CASPER 축」에 포함되는 이유

경어 문법 → MELCHIOR 축 (언어학적 정확성)

금융청 가이드라인 준수 → BALTHASAR 축 (업계 규칙)

도입 시 FAQ

Q. 도입에 비용이 얼마나 드나요?

패턴 A (실시간 판정): 초기 도입 ¥300-500만 + 월 ¥100-150만

패턴 B (배치 감사): 초기 도입 ¥150-250만 + 월 ¥30-50만

Q. 구현 기간은 어느 정도인가요?

Phase 1 (1-2주): 단일 AI 대상 파일럿 도입

Phase 2 (3-4주): MAGI 3축 통합

Q. 유지보수 및 운영 비용은?

사람 오퍼레이터: 월 20-40시간 (에러 검증, 규칙 업데이트)

Q. 다국어(영어, 중국어) 대응이 가능한가요?

마치며

Discussion

댓글