
은행의 AI 기술: SLM 대 LLM 그리고 조정 격차 (Coordination Gap)
요약
은행의 AI 도입 실패 원인이 모델 품질이 아닌 '조정 격차(Coordination Gap)'에 있음을 지적합니다. SLM과 LLM 사이의 효율적인 작업 라우팅을 위한 조정 계층 설계의 중요성을 강조합니다.
핵심 포인트
- 은행 AI 실패의 핵심은 모델 성능이 아닌 조정(coordination) 문제임
- SLM과 LLM 중 하나를 선택하는 것이 아니라 적절한 라우팅이 관건
- 규제 환경 내 프로덕션 적용을 위한 조정 계층 설계 필요
- 막대한 AI 투자 대비 수익 귀속(attribution) 문제 해결이 시급함
Originally published at twarx.com - 해당 사이트에서 전체 인터랙티브 버전을 읽어보세요.
최종 업데이트: 2026년 7월 5일
대부분의 은행 AI 기술 워크플로우(workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 실제 실패 원인은 조정(coordination)에 있음에도 불구하고, 모델 품질을 최적화하는 데 집중하고 있습니다.
맞춤형 소형 언어 모델 (SLM, Small Language Model)과 GPT-4o 또는 Claude와 같은 기성 대규모 언어 모델 (LLM, Large Language Model) 사이의 선택은 현재 모든 Tier 1 및 지역 은행의 이사회 대화에서 지배적인 주제입니다. 이는 벤더 계약 갱신 시기가 다가오고 있으며, CFO(최고재무책임자)가 구체적인 성과 증명을 요구하고 있기 때문입니다. 이것이 중요한 이유는 핵심 AI 기술 스택인 LangGraph, Anthropic의 Claude, MCP, 그리고 도메인 튜닝된 SLM이 마침내 규제 환경 내에서 프로덕션(production) 적용이 가능해졌기 때문입니다.
이 글을 끝까지 읽으시면 무엇을, 어디에 배포해야 하는지, 그리고 어떤 모델을 사용하든 실제로 수익을 창출하게 만드는 조정 계층(coordination layer)을 어떻게 설계해야 하는지 정확히 알게 될 것입니다.
결정은 대개 SLM '또는' LLM의 문제가 아닙니다. 조정 계층(coordination layer)이 그 사이에서 작업을 어떻게 라우팅(routing)하느냐의 문제입니다. 이것이 바로 AI 조정 격차(AI Coordination Gap)가 존재하는 지점입니다. Source
개요: 왜 은행들은 연간 1,150만 달러를 쓰면서 아무것도 증명하지 못하는가
모든 은행 운영 책임자들을 공포에 빠뜨릴 만한 수치가 여기 있습니다. 기업들은 현재 AI 이니셔티브(AI initiatives)에 연간 평균 1,150만 달러를 지출하고 있지만, 대다수는 해당 프로그램으로부터 단 1달러의 수익도 귀속시키지 못하고 있습니다. 특히 컴플라이언스(compliance) 오버헤드, 데이터 거버넌스(data governance), 그리고 레거시 핵심 시스템(legacy core systems)이 모든 배포 과정에서 복합적으로 작용하는 금융 서비스 분야에서는 이러한 귀속(attribution) 문제가 더욱 심각합니다. McKinsey Global Survey on AI, 2024에 따르면, AI 도입이 증가함에도 불구하고 AI 투자와 측정 가능한 가치 사이의 격차는 계속해서 벌어지고 있습니다. 자금은 실제로 투입되고 GPU는 돌아가고 있지만, 수익은 금융권의 그 누구도 장부상에서 지목할 수 없는 소문에 불과합니다.
ROI(투자 대비 수익)가 나타나지 않을 때, 본능적으로 모델을 탓하게 됩니다. 'GPT-4o가 컴플라이언스 답변을 환각(hallucination)했으니, 커스텀 모델을 만들자'라거나, 반대로 '우리의 미세 조정된(fine-tuned) SLM은 너무 좁으니, 그냥 Claude를 사자'라고 생각하는 식입니다. 두 가지 본능 모두 틀렸습니다. 왜냐하면 두 경우 모두 모델이 병목 현상(bottleneck)이라고 가정하기 때문입니다. 하지만 모델이 병목인 경우는 거의 없습니다.
AI로 승리하고 있는 은행들은 최고의 모델을 실행하는 은행들이 아닙니다. 그들은 6개의 시스템 간의 핸드오프(handoff) 문제를 해결하여, 경쟁사들이 벤치마크(benchmarks)를 두고 논쟁하는 동안 쿼리당 비용을 25배 절감한 은행들입니다.
McKinsey Global Survey on AI, 2024에 기록되어 있고 Stanford HAI의 2024 AI Index Report에서도 강조된 효과적인 은행 AI의 다섯 가지 특징은 모두 동일한 근본적 진실을 가리킵니다. 즉, 승자는 AI를 모델 선택 (model-selection) 문제가 아닌 조정 (coordination) 문제로 취급한다는 것입니다. 이들은 대량의 좁은 범위의 작업(거래 분류, KYC 문서 추출, 사기 신호 분류(triage))에는 작고 저렴하며 빠른 모델을 배치하고, 진정한 추론 (reasoning)을 위해서는 비용이 많이 드는 프런티어 LLM (frontier LLMs)을 예약해 둡니다. 그리고 결정적으로, 어떤 모델이 무엇을 처리할지 결정하고, 모든 결정을 추적하며, 규제 기관이 실제로 읽을 수 있는 감사 추적 (audit trail)을 생성하는 오케스트레이션 계층 (orchestration layer)을 구축합니다.
AI 조정 격차 (AI Coordination Gap) — 정의
AI 조정 격차 (The AI Coordination Gap)
AI 조정 격차는 단일 AI 모델 내부가 아니라, 모델, 데이터 시스템, 인간, 그리고 다운스트림 (downstream) 은행 애플리케이션 간의 설계되지 않은 오프 (handoffs) 과정에서 발생하는 측정 가능한 성능 및 ROI 손실을 의미합니다. 이것이 바로 은행이 99% 정확도의 모델을 배포하고도 엔드 투 엔드 (end-to-end) 프로세스가 30%의 확률로 실패하는 것을 지켜봐야 하는 이유입니다. 이 격차는 요청이 라우팅 (routing), 검색 (retrieval), 추론 (reasoning), 오케스트레이션 (orchestration), 거버넌스 (governance), 통합 (integration)과 같은 경계를 통과할 때마다 복리로 증가합니다. 더 큰 모델을 구매하는 대신 이 격차를 메우는 것이 은행 AI ROI를 높이는 가장 큰 지렛대입니다.
이 기사는 조정 격차를 명명된 6개의 계층으로 나누고, 실제 은행 배포 환경에서 각 계층이 어떻게 작동하는지 보여주며, 모든 계층에서 SLM 대 LLM을 선택하기 위한 의사결정 프레임워크를 제공합니다. 우리는 대부분의 은행이 무엇을 잘못하고 있는지 살펴보고, 수치를 인용하며, 월요일부터 바로 시작할 수 있는 구현 경로를 제시하며 마무리할 것입니다.
$11.5M
검증되지 않은 ROI를 가진 기업의 연간 평균 AI 지출액
[McKinsey Global Survey on AI, 2024](https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai)
...
SLM이란 무엇인가, LLM이란 무엇인가, 그리고 왜 은행에서 이 구분이 중요한가
소형 언어 모델 (SLM, Small Language Model)은 일반적으로 1B에서 15B 사이의 파라미터(parameters)를 가진 모델로, 좁은 도메인(narrow domain)에 맞춰 학습되거나 미세 조정(fine-tuned)된 모델을 의미합니다. Phi-3, Mistral 7B, Gemma, 또는 귀하의 은행 자체 거래 분류 체계(transaction taxonomy)와 컴플라이언스 코퍼스(compliance corpus)로 미세 조정된 Llama 변형 모델을 생각해보십시오. 이 모델은 저렴하게 실행되며, 온프레미스(on-premise) 또는 자체 VPC 내에 호스팅할 수 있고, 제한된 질문 세트에 대해 매우 뛰어난 답변을 제공합니다.
기성 LLM(off-the-shelf LLM) — GPT-4o, Claude Opus, Gemini 2.5 — 은 API를 통해 접근하는 프런티어 범용 추론 모델(frontier general-reasoning model)입니다. 이 모델은 개방형 추론(open-ended reasoning), 새로운 에지 케이스(edge cases), 그리고 다중 도메인 합성(multi-domain synthesis)을 처리할 수 있지만, 호출당 비용이 더 높고, 데이터 거주성(data-residency) 문제를 야기하며, 완전히 감사(audited)할 수 없습니다.
은행 업무에서 이 구분은 학술적인 차원이 아닙니다. 이는 모든 금융 서비스 배포를 지배하는 네 가지 제약 조건과 직접적으로 연결됩니다: 데이터 거주성 (data residency) (고객의 개인정보(PII)가 귀하의 VPC를 떠날 수 있는가?), 감사 가능성 (auditability) (규제 기관에 결정 근거를 설명할 수 있는가?), 지연 시간 (latency) (이상 거래 탐지(fraud scoring)는 100ms 미만의 속도가 필요함), 그리고 대량 처리 시의 비용 (cost at volume) (매일 수백만 건의 거래를 처리함).
은행 AI 작업의 70~85%는 경계가 정해져 있습니다(bounded) — 즉, 대부분의 은행은 동네 슈퍼마켓에 가기 위해 페라리를 사고 나서, 왜 ROI(투자 대비 수익)가 나타나지 않는지 의아해하고 있는 것과 같습니다.
호출당 $0.0002의 비용으로 거래를 분류하는 미세 조정된 7B SLM과 호출당 $0.005의 비용이 드는 GPT-4o를 비교하면, 이는 단순한 25배의 비용 차이가 아닙니다. 월 4,000만 건의 거래를 처리할 경우, 이는 매달 $8,000와 $200,000의 차이를 의미합니다.
| 차원 (Dimension) | 맞춤형 SLM (Custom SLM) | 기성 LLM (Off-the-Shelf LLM) |
|---|---|---|
| 추론당 비용 (Cost per inference) | $0.0001–$0.0005 | $0.003–$0.015 |
| 지연 시간 (Latency, p95) | 20–80ms (온프레미스) | 400ms–2s (API) |
| 데이터 거주성 (Data residency) | 완전한 제어 가능 (VPC/온프레미스) | 벤더 의존적 (Vendor-dependent) |
| 추론 범위 (Reasoning breadth) | 좁음, 도메인 고정 | 넓음, 범용적 |
| 감사 가능성 (Auditability) | 높음 (자체 가중치 + 로그) | 제한적 (블랙박스) |
| 배포 시간 (Time to deploy) | 6–14주 (튜닝 + 평가) | 수일 (API 통합) |
| 최적 용도 (Best for) | 대량의 좁은 작업 | 새로운 추론, 적은 양의 작업 |
다음은 CFO가 실제로 관심을 가질 만한 수치입니다. 아래 표는 동일한 일일 10,000회 쿼리 워크로드에 대해 두 가지 방식 — SLM 우선 방식(SLM-first) 대 전체 LLM 방식 — 의 비용을 산출한 것이며, 다음 예산 검토 시 스크린샷으로 활용하실 수 있습니다.
| 비용 모델 (일일 10,000회 쿼리 / 월 300k 기준) | SLM 우선 방식 (신뢰도 기반 게이팅) | 모든 기성 LLM 사용 |
|---|---|---|
| 쿼리당 혼합 비용 | $0.0008 | $0.006 |
| 일일 비용 | $8 | $60 |
| 월간 비용 | $240 | $1,800 |
| 연간 비용 | $2,880 | $21,600 |
| 1,000회 쿼리당 비용 | $0.80 | $6.00 |
| p95 지연 시간 (latency) | <80ms (온프레미스) | 400ms–2s (API) |
솔직한 답변은 — 단일 SKU(Stock Keeping Unit) 판매에 도움이 되지 않기 때문에 거의 어떤 벤더도 말해주지 않겠지만 — 대부분의 은행에는 조정된(coordinated) 두 방식 모두가 필요하다는 것입니다. SLM은 반복적이고 범위가 정해진 80%의 물량을 처리합니다. LLM은 진정으로 새로운 20%의 물량을 처리합니다. 조정 계층(coordination layer)은 감사 추적(audit trail)과 함께 실시간으로 어떤 모델을 사용할지 결정합니다. 그 조정 계층이야말로 아무도 당신에게 팔지 않는 것이며, 실제로 가장 중요한 유일한 부분입니다.
요청당 SLM 대 LLM을 결정하는 라우팅(routing) 결정은, 은행이 신뢰도(confidence)를 측정하는 대신 이를 하드코딩(hardcode)할 경우 그 자체로 AI 조정 격차(AI Coordination Gap)의 실패 지점이 됩니다. 출처
AI 기술 조정 스택의 6개 계층
조정 격차는 단 하나의 문제가 아닙니다. 이는 엔드 투 엔드(end-to-end) 신뢰성을 조용히 침식시키는 6개의 별개 실패 표면(failure surfaces)입니다. 모델만 최적화한다면, 이 중 단 하나만을 해결할 뿐입니다.
명명된 프레임워크
AI 조정 격차 — 6개 계층
모든 계층은 요청이 시스템 간을 이동할 때 충실도(fidelity)를 잃게 되는 지점입니다. 격차는 이 6개 계층 전체에 걸친 누적 손실이며, 이것이 단계별 정확도가 97%인 파이프라인이라도 엔드 투 엔드 신뢰도는 83%까지 떨어질 수 있는 이유입니다.
계층 1: 라우팅 계층 (The Routing Layer) — 어떤 모델이 요청을 받을 것인가
모든 유입되는 작업 — 고객 채팅, 대출 서류, 거래 내역 등 — 은 적절한 모델로 라우팅(Routing)되어야 합니다. 사기 분류(fraud-triage) 요청은 빠른 온프레미스(on-prem) SLM으로 전달되어야 합니다. 복잡한 주택 담보 대출 심사(mortgage-underwriting) 예외 사항은 Claude Opus로 에스컬레이션(escalate)되어야 합니다. 대부분의 은행은 이러한 라우팅을 취약한 if/else 규칙으로 하드코딩(hardcode)하며, 이는 새로운 케이스 유형이 나타나는 순간 무너집니다. 저는 한 팀이 출시 이후 아무도 건드리지 않았던 단 두 줄의 라우팅 조건 때문에 3주 동안 디버깅(debugging)을 하는 것을 목격했습니다. 모델은 문제가 없었습니다. 배선(wiring)이 문제였습니다.
해결책은 **신뢰도 기반 게이트 라우터(confidence-gated router)**입니다. SLM이 먼저 모든 요청을 시도하고 신뢰도 점수(confidence score)를 산출하며, 신뢰도가 보정된 임계값(calibrated threshold) 아래로 떨어질 때만 비용이 많이 드는 LLM으로 에스컬레이션합니다. 이것만으로도 전체 물량의 75~85%를 저렴한 모델로 유지할 수 있습니다. 더 자세한 설명은 LangGraph 멀티 에이전트 오케스트레이션(multi-agent orchestration) 가이드를 참조하십시오.
계층 2: 검색 계층 (The Retrieval Layer) — RAG 및 벡터 데이터베이스
SLM도 LLM도 귀하의 은행이 가진 최신 정책 문서, 상품 약관, 또는 특정 고객의 이력을 알지 못합니다. 검색 증강 생성 (RAG)은 모델이 답변하기 전에 Pinecone과 같은 벡터 데이터베이스(vector database)에서 적절한 컨텍스트(context)를 가져옵니다. 오래된 인덱스(stale indexes), 부실한 청킹(chunking), 그리고 재순위화(re-ranking)의 부재는 모델이 오래된 정책을 바탕으로 자신 있게 답변하게 만듭니다. 은행 업무에서 이것은 단순한 품질 문제가 아닙니다. 그것은 컴플라이언스(compliance, 준법 감시) 사고입니다.
계층 3: 추론 계층 (The Reasoning Layer) — 모델이 실제로 작동하는 곳
이곳은 대부분의 은행이 고려하는 유일한 계층입니다. 네, 모델의 품질은 중요합니다. 하지만 이는 6개 계층 중 하나일 뿐이며, 나머지 5개 계층을 무시한 채 이곳에만 과잉 투자하는 것이 '수익률(ROI) 없는 1,150만 달러 문제'를 일으키는 가장 흔한 원인입니다. 저는 감사 추적(audit trail)이 없고 인계(handoff)가 취약한 프런티어 모델(frontier model)을 갖느니, 차라리 잘 갖춰진 파이프라인(pipeline) 내에서 작동하는 평범한 모델을 갖겠습니다.
계층 4: 오케스트레이션 계층 (The Orchestration Layer) — 다단계 에이전트 흐름 (Multi-Step Agentic Flows)
실제 은행 업무는 다단계(multi-step)로 이루어집니다. 대출 사전 자격 심사(loan pre-qualification)의 경우 다음과 같은 과정을 거칠 수 있습니다: 문서에서 소득 정보 추출 → 신용 정보 기관(credit bureau)을 통한 검증 → 정책 적격성 확인 → 설명 생성. 각 단계는 서로 다른 모델이나 도구를 사용합니다. LangGraph, AutoGen, 그리고 CrewAI는 상태(state), 재시도(retries), 그리고 인간 참여(human-in-the-loop) 게이트를 통해 이러한 단계들을 연결하는 프로덕션급 오케스트레이션 프레임워크 (orchestration frameworks)입니다.
각 단계의 신뢰도가 97%인 6단계 파이프라인의 경우, 엔드 투 엔드 (end-to-end) 신뢰도는 83%에 불과합니다. 대부분의 은행은 규제 기관에 시스템이 작동한다고 보고한 이후에야 이 사실을 깨닫게 됩니다.
레이어 5: 규제 대상 은행 업무에서의 AI 기술 거버넌스 (AI Technology Governance)
모든 결정은 기록되어야 하며, 설명 가능하고(explainable), 재현 가능해야(reproducible) 합니다. 이는 타협할 수 없는 원칙입니다. 여기서 발생하는 조정 격차 (coordination gap)는 6개의 시스템이 하나의 결정에 관여할 때, 그 어느 단일 시스템도 감사 추적 (audit trail)을 소유하지 않는다는 점입니다. 입력값, 검색된 컨텍스트 (retrieved context), 모델 버전, 신뢰도 점수 (confidence score), 그리고 매 단계에서의 인간의 개입 (human override)을 포착하는 통합된 결정 로그 (unified decision log)가 필요합니다. 이는 NIST AI 위험 관리 프레임워크 (NIST AI Risk Management Framework)와 직접적으로 일치합니다. 이를 생략한다면 당신은 은행 AI 시스템을 운영하는 것이 아니라, 부채 (liability)를 운영하고 있는 것입니다.
레이어 6: 통합 레이어 (The Integration Layer) — MCP 및 다운스트림 시스템 (Downstream Systems)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기