주당 73시간의 경고 분류 작업을 10개의 AI 에이전트로 대체했습니다. 그 아키텍처를 공개합니다.

요약 (TL;DR): 대부분의 컴플라이언스 (Compliance) 팀은 주당 73시간을 경고 분류 (Alert Triage)에 소비합니다. 이러한 경고의 약 95%는 노이즈입니다. 우리는 경고를 병렬로 조사하는 10개의 AI 에이전트를 구축하여 시간 비율을 역전시켰으며, 그 결과 분석가들이 아무런 문제가 없음을 확인하는 대신 실제 위험에 시간의 70%를 할애할 수 있게 되었습니다. 이 포스트에서는 아키텍처, 이를 추진하게 된 고충, 그리고 실제로 변화된 점들을 살펴봅니다.

지난달, 유럽의 한 네오뱅크 (Neobank) 컴플라이언스 엔지니어가 저에게 그들의 Grafana 대시보드를 보여주었습니다. 하루에 200개의 경고가 발생합니다. 평균 처리 시간은 경고당 22분입니다. 이는 분류 작업에 매주 73시간의 분석가 시간이 소모되고 있음을 의미합니다.

가장 최악인 점은 무엇일까요? FCA의 자체 추정치에 따르면, 이러한 경고의 약 95%는 위양성 (False Positives)으로 판명됩니다. 연봉 75,000파운드 이상의 고액을 지급하는 시니어 분석가들이 아무런 문제가 없음을 확인하는 데 하루를 보내고 있는 것입니다.

만약 당신이 컴플라이언스 인프라를 구축하고 있고 이 상황이 익숙하게 들린다면, 이 포스트는 당신을 위한 것입니다.

문제는 탐지가 아니라 조사입니다.

임계값 기반 (Threshold-based) 트랜잭션 모니터링 시스템은 플래깅 (Flagging)에는 능숙합니다. 하지만 문맥 (Context) 파악에는 매우 취약합니다. 9,500파운드의 송금은 그것이 고위험 관할 구역으로의 첫 송금인지, 아니면 알려진 공급업체에 대한 정기 결제인지와 상관없이 동일한 경고를 발생시킵니다.

그 후 분석가는 거래 내역, 스크리닝 (Screening) 결과, 기업 등록 데이터, 부정적 미디어 (Adverse Media), 그리고 이전 케이스 노트 등 4~5개의 소스에서 데이터를 수동으로 취합해야 합니다. 그 과정이 바로 22분입니다. 결정을 내리는 시간이 아니라, 데이터를 모으는 시간입니다.

McKinsey의 2024 KYC/AML 벤치마크에 따르면, 북미, 유럽, 아시아 태평양 전역의 은행들은 전일제 근무자(FTE)의 10-15%를 KYC 및 AML 작업에 할당합니다. 그 시간의 대부분은 수동 데이터 대조, 문서 수집, 그리고 일상적인 경고 처리에 사용됩니다. 분석가를 고용한 본래 목적인 실제 위험 판단은 남은 시간에 억지로 끼워 맞춰지게 됩니다.

임계값 기반 시스템이 계속 실패하는 이유

전통적인 AML 모니터링과 함께 일해 보셨다면, 다음과 같은 패턴을 알고 계실 것입니다:

interface ThresholdRule {
  ruleId: string;
  metric: 'transaction_amount' | 'frequency' | 'jurisdiction_risk';
...

경직되어 있습니다. 맥락이 없습니다 (Context-free). 모든 규칙은 서로 간의 상관관계 없이 독립적으로 경고 (Alert)를 생성합니다. 시스템은 고객이 2년 동안 매달 동일한 결제를 해왔다는 사실을 알지 못하며 (혹은 신경 쓰지 않습니다).

업계는 거래 기록, 주변 위험 지표 (Ambient risk metrics), 그리고 행동 트렌드를 분석하는 AI 기반 예측 분석 (Predictive analytics)으로 이동하고 있습니다. 하지만 제가 대화하는 대부분의 팀은 여전히 임계값 (Threshold) 모델에 갇혀 있으며, 규제 기관이 모든 규칙 변경에 대해 문서화된 근거를 요구하기 때문에 끌 수도 없는 경고들에 파묻혀 있습니다.

멀티 에이전트 조사 아키텍처 (Multi-agent investigation architecture)의 모습

Zenoo에서 이를 구축할 때 우리는 의도적인 선택을 했습니다. 챗봇 (Chatbot)이 아닙니다. 모든 것을 수행하는 단일 모델도 아닙니다. 각각 특정한 조사 책임을 가진 10개의 에이전트 (Agent)를 배치했습니다.

오케스트레이션 (Orchestration)이 작동하는 방식의 단순화된 버전은 다음과 같습니다:

interface InvestigationAgent {
  agentId: string;
  role: AgentRole;
...

핵심 설계 결정 사항:

순차적이 아닌 병렬적 (Parallel, not sequential). 10개의 에이전트 모두 동일한 경고에 대해 동시에 실행됩니다. case_synthesis 에이전트는 권고안을 생성하기 전, 나머지 9개 에이전트의 조사 결과가 나올 때까지 기다립니다. 이것이 조사 시간을 단축시키는 핵심입니다.

각 에이전트가 자신의 데이터 소스를 소유함. screening 에이전트는 제재 목록 (Sanctions lists)에 연결됩니다. corporate_registry 에이전트는 실소유자 (UBO) 데이터를 가져와 교차 참조합니다. adverse_media 에이전트는 실시간 검색을 수행합니다. 어떤 에이전트도 모든 것을 하려고 시도하지 않습니다.

타입화된 출력 스키마 (Typed output schemas). 모든 에이전트는 관련성 점수 (Relevance score)가 포함된 구조화된 AgentFinding을 반환합니다. 합성 (Synthesis) 에이전트는 자유 형식의 텍스트 (Free text)를 파싱할 필요가 없습니다. 구조화된 증거를 바탕으로 작업합니다.

에스컬레이션 (Escalations)을 위한 인간 참여 (Human-in-the-loop). 에이전트가 조사하고, 분석가 (Analyst)가 결정합니다. 70/30 시간 비율의 역전은 분석가들이 이제 기존과 반대로, 전체 시간의 70%를 실제 위험 사례에 할애하고 30%를 기각된 경고를 검토하는 데 사용함을 의미합니다.

지속적 KYC (Perpetual KYC)가 결합되는 방식

우리가 목격하고 있는 아키텍처 패턴 중 하나는 지속적 KYC (pKYC, Perpetual KYC)로, 이는 주기적인 검토 대신 지속적이고 이벤트 기반의 (event-driven) 모니터링을 수행하는 방식입니다. 고객의 상태가 변경될 때 (새로운 PEP 지정, 제재 목록 업데이트, 거래 행태의 중대한 변화 등), 시스템은 자동으로 해당 고객의 위험 점수 (risk score)를 재계산하고 필요한 경우 검토를 트리거합니다.

이것이 바로 업계에서 논의해 온 "이벤트 기반 컴플라이언스 (event-driven compliance)"로의 전환이며, 이는 에이전트 기반 아키텍처 (agent-based architecture)와 깔끔하게 매칭됩니다. 각 상태 변경 이벤트는 관련 에이전트들에게 확산됩니다. 합성 에이전트 (synthesis agent)는 해당 변경 사항이 분석가의 주의를 끌 만큼 실질적인지 여부를 결정합니다.

특히 KYB (Know Your Business)의 경우, 이것은 훨씬 더 중요합니다. 수동 KYB 프로세스는 평균 24일에서 30일이 소요됩니다. AI 기반 검증을 사용하면 UBO (최종 실소유자) 확인 및 글로벌 제재 목록과의 교차 참조 시간을 2~3분으로 단축할 수 있습니다. 하지만 진정한 가치는 단순히 온보딩 (onboarding) 속도에 있는 것이 아닙니다. 그것은 변화하는 기업 구조에 대한 지속적인 모니터링에 있습니다.

AMLD5는 금융 기업에 대한 온라인 개인정보 확인을 의무화하고 AML (자금세탁방지) 컴플라이언스에서 KYB를 강조합니다. PSD2의 API 기반 데이터 공유 요구사항과 결합하여, 규제의 방향은 명확합니다: 자동화되고, 지속적이며, 감사 가능한 (auditable) 방식입니다.

실제로 무엇이 변하는가

우리가 협력하고 있는 영국의 한 챌린저 뱅크 (challenger bank) 컴플라이언스 책임자는 이를 직설적으로 표현했습니다: "우리는 경고 큐 (alert queue)를 채우기 위해 분석가들을 채용했었습니다. 이제 우리는 실제 위험을 조사하기 위해 분석가들을 채용합니다."

수치가 그 이야기를 증명합니다. 매일 발생하는 200개의 경고를 10개의 조사 에이전트 (investigation agents)를 통해 병렬로 처리하면, 95%에 달하는 오탐 (false positives)은 자동으로 문서화되고, 증거가 확보되며, 기각됩니다. 나머지 5%는 거래 패턴, 스크리닝 결과, 기업 등록 데이터, 부정적 미디어 (adverse media) 조사 결과, 그리고 합성된 위험 평가를 포함한 전체 조사 패키지와 함께 분석가의 책상에 전달됩니다.

이것이 챗봇 (chatbot)과 조사 아키텍처 (investigation architecture)의 차이입니다. 챗봇은 질문에 답합니다. 에이전트는 업무를 수행합니다.

컴플라이언스 워크플로우 (compliance flows)를 구축하고 있다면

KYC (Know Your Customer), AML (Anti-Money Laundering), 그리고 사기 방지 통제 (fraud controls)에서의 컴플라이언스 실패는 네오뱅크 (neobank) 폐쇄의 가장 큰 원인입니다. 취약한 통제는 단순한 규제 리스크가 아닙니다. 그것은 생존의 문제입니다.

만약 당신이 이러한 시스템을 구축하는 엔지니어라면, 지금 내리는 아키텍처 선택(임계값 기반 vs 예측 기반, 순차적 vs 병렬적, 챗봇 vs 멀티 에이전트)이 당신의 컴플라이언스 팀이 규모를 확장할 수 있을지, 아니면 업무에 매몰될지를 결정합니다.

우리는 팀들이 처음부터 아키텍처를 설계할 필요가 없도록 Zenoo에서 이를 구축했습니다. 10개의 에이전트. 전체 조사 파이프라인 (investigation pipeline). 챗봇이 아닙니다.

컴플라이언스 통합 (compliance integrations)을 구축 중이며, 오케스트레이션 (orchestration)이 귀하의 데이터와 어떻게 작동하는지 확인하고 싶다면 zenoo.com을 확인해 보세요.

Stuart Watkins는 Zenoo의 CEO로, 핀테크 기업과 금융 기관을 위한 컴플라이언스 인프라를 구축하고 있습니다.