보험 가능성을 위한 엔지니어링: Mayflower와 Hadron의 확정적 AI 책임 프로그램 내부 살펴보기

Originally published on CoreProse KB-incidents

AI 시스템은 이제 코드를 작성하고, 자금을 이동시키며, 언더라이팅 (underwriting)에 영향을 미치지만, 대부분의 기업용 보험 정책은 여전히 GenAI 코파일럿 (GenAI copilots)이나 자율 워크플로 (autonomous workflows)를 위해 설계되지 않은 일반적인 사이버 특약 (cyber riders) 안에 LLM (Large Language Models)과 에이전트 (agents)를 숨겨두고 있습니다. Mayflower와 Hadron의 사례와 같은 확정적 AI 책임 프로그램 (affirmative AI liability program)은 엔지니어링, 보안, 그리고 언더라이팅이 구체적인 실패 모드 (failure modes), 통제 (controls), 그리고 텔레메트리 (telemetry)에 대해 정렬하도록 강제합니다.

보험 가능성 (insurability)을 위한 설계는 하나의 아키텍처적 제약 조건이 됩니다: 보험 약관 언어, AI 거버넌스 (AI governance), 그리고 언더라이팅 설문지가 SLO (Service Level Objectives), 보안 프레임워크 (security frameworks), 그리고 규제 통제 (regulatory controls)와 나란히 놓이게 됩니다.

1. AI에 확정적 보장이 필요한 이유: 시장, 리스크, 그리고 규제 배경

국가별 AI 전략은 강화된 AI 기반 인프라를 의무화하는 동시에, 공격적인 혁신과 "의문의 여지가 없고 도전받지 않는" 지배력을 추구합니다. [2][6] 기대치는 다음과 같습니다: 강력한 모델을 배포한다면, 안전하고 대규모인 운영과 신뢰할 수 있는 AI 리스크 관리 (AI risk management)를 증명해야 합니다.

최신 미국 행정 명령 (U.S. Executive Order) 및 미국의 AI 행동 계획 (America’s AI Action Plan)에 따라 기관들은 다음을 추진하고 있습니다:

신속한 AI 도입 및 오픈 웨이트 (open-weight) 실험.
대규모 AI 평가 및 강화된 핵심 시스템. [2][6]

EU AI Act는 병행되는 AI 준수 의무를 추가합니다. AI 리스크는 이제 사이버, 운영, 그리고 소프트웨어 공급망 보안의 중심입니다.

📊 시장 현실: GenAI는 이미 매우 사실적인 합성 사기(synthetic fraud)—가짜 사고 사진, 문서, 신원 등—를 주도하고 있으며, 이는 연간 수백억 달러의 자동차 보험 손실로 이어지고 있습니다. [9] 일반적인 "사이버 추가 특약 (cyber add-ons)"은 더 이상 이러한 손실 지형에 부합하지 않습니다.

AI 기반 사기 탐지는 이제 신경망 (neural) 및 앙상블 (ensemble) 방법론을 통해 정확도 (accuracy), 정밀도 (precision), 재현율 (recall), 그리고 F1 스코어 (F1 score) 측면에서 규칙 기반 방식보다 뛰어난 성능을 보입니다. [10] 하지만:

불투명한 의사결정 로직 (Opaque decision logic), 드리프트 (drift), 그리고 서비스 중단 (outages)은 포트폴리오 전반에 걸친 상관관계가 있는 실패 (correlated failures)를 유발할 수 있습니다. [10]

💼 예시: 한 손해·재물 보험 (P&C)사의 자동차 보험 청구 AI 분류 (triage) 시스템은 사기 적발률을 높였으나, 데이터 파이프라인 변경 이후 특정 코호트 (cohorts) 전체를 오분류하였고, 이는 규제 기관의 조사와 까다로운 책임 (liability) 문제를 야기했습니다.

사이버 트렌드 연구에 따르면, AI는 이제 공격 표면 (attack surface)이자 방어 계층 (defense layer)으로서 거의 모든 심각한 사이버 관련 논의에 포함되어 있습니다. [12] 이사회는 다음을 기대합니다:

AI로 강화된 사기 및 위협 탐지.
AI 잔여 위험 (residual risks) 및 단계 (tiers)에 대한 명시적인 설명.
막연한 "AI가 보안을 돕는다"가 아닌, 명확한 위험 전가 (risk transfer) 메커니즘. [11][12]

⚡ 핵심 변화: 확정적 AI 책임 (Affirmative AI liability)은 AI 우선 기업 (AI-first enterprises)에게 경쟁 우위가 됩니다. 이는 혁신 친화적인 정책에 부합하는 동시에, AI 위험이 정량화되고 가격이 책정되며 아키텍처적 안전장치 (Architectural Safeguards)에 의해 뒷받침됨을 증명합니다. [2][6]

2. 확정적 AI 책임 프로그램이 실제로 보장해야 하는 범위

확정적 AI 책임은 단순히 일반적인 "소프트웨어 오류"가 아니라, 현대의 AI 에이전트 (agents) 및 LLM 시스템이 실패하는 방식에 맞춰 정렬되어야 합니다.

2.1 에이전트 스택: 인지, 추론, 행동, 메모리

보험 정책은 다음과 같은 에이전트를 명시적으로 인정해야 합니다:

인지 (Perceive): 텍스트, 이미지, 로그, 텔레메트리 (telemetry).
추론 (Reason): 다단계 계획 (multi-step planning).
행동 (Act): 도구 (tools), API, 결제, 배포.
기억 (Remember): 장기 문맥 (long-term context) 및 RAG 저장소. [3]

각 계층은 별개의 위험을 가집니다:

적대적 입력 (adversarial inputs)에 대한 인지 오류.
결함이 있는 계획 또는 사고의 연쇄 (chain-of-thought).
안전하지 않은 도구 호출 (tool invocation) 및 외부 행동.
장기 메모리 및 벡터 저장소 (vector stores)의 오용, 오염 (poisoning) 또는 유출. [3]

💡 프레이밍 (Framing): "AI 오작동"이라는 표현 대신 "사기 신호를 오분류하는 인지 계층 실패 (perception-layer failure)" 또는 "승인되지 않은 코드 배포를 유발하는 행동 계층 실패 (action-layer failure)"와 같이 계층별 구체적인 표현을 사용하십시오.

2.2 엔드 투 엔드 에이전트 위협 모델 (End-to-end agent threat model)

보안 설문 조사에 따르면 4개 영역에 걸쳐 30개 이상의 공격 기술이 나열되어 있습니다. [8] 보험 정책은 이 분류 체계 (taxonomy)를 추적해야 합니다:

입력 조작 (Input Manipulation): 프롬프트 인젝션 (prompt injection), 롱 컨텍스트 하이재킹 (long-context hijack), 멀티모달 적대적 예시 (multimodal adversarial examples), 손상된 입력 정화 (broken Input Sanitization) (예: 인코딩 정규화 (encoding normalization), 호모글리프 제거 (homoglyph stripping)).
모델 침해 (Model Compromise): 프롬프트 수준 및 파라미터 백도어 (prompt-level and parameter backdoors).
시스템 및 개인정보 보호 (System & Privacy): 검색 독성 (retrieval poisoning), 멤버십 추론 (membership inference), 사이드 채널 (side-channels), 체인 쿼리 (chained queries) 또는 악성 API를 통한 은밀한 데이터 유출 (stealth data exfiltration).
프로토콜 취약점 (Protocol Exploits): MCP, ACP, ANP 및 에이전트 간 프로토콜 (agent-to-agent protocols)의 버그. [8]

보험 정책은 어떤 실패와 그로 인한 손실 또는 규제 위반이 보장 범위에 포함되는지를 명시해야 합니다.

⚠️ 콘텐츠 유해성 및 차별 (Content harm & discrimination): 10개 언어로 된 650,000개의 이야기를 대상으로 23개의 프런티어 LLM (frontier LLMs)을 대규모 평가한 결과, 모든 모델이 유해한 고정관념을 방출할 수 있음이 나타났습니다. [1] 환각 (Hallucination), 명예훼손 (defamation), 괴롭힘 (harassment) 및 부정확한 출력 (Inaccurate Outputs)은 기본 노출 위험이며, 명시적인 보장 항목 (coverage buckets)으로 설정되어야 합니다.

2.3 금융 손실, 코드 리스크 및 인프라 집중

도구 사용이 가능한 에이전트 (tool-enabled agents)에 대한 프롬프트 인젝션은 이미 실제 금융 손실을 초래했습니다. 예를 들어, 모스 부호 공격을 통해 AI 지갑을 속여 15만 달러 상당의 암호화폐를 전송하게 만든 사례가 있습니다. [1] 전통적인 전문인 배상책임보험 (E&O)은 이러한 에이전트 기반의 도구 매개 동작을 제외하는 경우가 많지만, 확정적 AI 프로그램 (affirmative AI programs)은 이를 명시적으로 포함하거나 제외할 수 있습니다.

AI 생성 코드는 다음과 같은 위험을 추가합니다:

현재 기업 코드의 거의 절반이 AI에 의해 생성됩니다.
한 연구에 따르면 모델 주도의 "정제 (refinement)" 과정을 5회 거친 후 치명적인 취약점이 37% 증가했습니다. [5]
기업 환경에서 AI 생성 코드를 수정하는 데는 인간이 작성한 코드보다 3배 더 긴 시간이 소요되었습니다. [5]

특화된 AI 칩과 사내 가속기 (in-house accelerators)는 와트당 더 높은 성능을 제공하지만, 한 제공업체가 모델, 런타임 (runtime) 및 하드웨어를 모두 제어하는 수직 계열화된 스택 (vertically integrated stacks) 내에서 리스크를 집중시킵니다. [4] 보험사는 이를 누적 위험 (accumulation) 및 단일 장애점 (single-point-of-failure) 모델에 반드시 반영해야 합니다.

💼 핵심 요약 (Takeaway): Mayflower 및 Hadron과 같은 프로그램들은 이를 명시된 보장 범위의 핵심 축(coverage pillars)으로 변환합니다: 에이전트 기반 운영 (agentic operations), 콘텐츠 유해성 (content harm), AI 생성 코드 결함 (AI-generated code defects), 그리고 인프라 집중 (infrastructure concentration).

3. 엔지니어링 요구사항: 보험사가 AI 시스템을 인수(Underwrite)하는 방법

보장 여부는 단순히 명시된 의도가 아니라, 전체 머신러닝 (ML) 라이프사이클 및 파이프라인 전반에 걸쳐 입증된 통제력을 바탕으로 결정될 것입니다.

3.1 1급 인수 신호로서의 관측성 (Observability)

데이터 품질, 거버넌스 (governance), 신뢰성 격차로 인해 어떤 기능에서도 AI 에이전트를 확장하여 도입한 조직은 10% 미만입니다. [7] 현대적인 관측성 (observability) 및 LLMOps/MLOps는 다음과 같은 기능을 제공합니다:

LLM 호출 및 도구(tools)에 대한 트레이스 수준의 텔레메트리 (telemetry).
검색 (retrieval), RAG, 그리고 추론 (reasoning) 트레이스.
통합된 평가 (evals), 실험 추적 (experiment tracking), 그리고 가드레일 (guardrails). [7]

보험사는 다음과 같은 내용을 보여주는 요약된 트레이스와 대시보드를 요구할 것입니다:

탐지 가능한 오작동 (misbehavior).
가드레일 트리거 및 개입 (interventions).
프롬프트 (prompts), 모델, 벡터 스키마 (vector schemas), 그리고 도구에 대한 모니터링된 변경 사항. [7]

📊 시사점: 구조화된 텔레메트리나 지속적 모니터링 (Continuous Monitoring)이 없다면, 에이전트 기반 워크플로우 (agentic workflows)에 대한 보장은 불가능합니다.

3.2 일회성 침투 테스트가 아닌 지속적인 보안 평가

LLM 에이전트 생태계는 끊임없이 진화하는 프롬프트 인젝션 (prompt injection), 검색 독성 (retrieval poisoning), 시스템 공격, 그리고 프로토콜 취약점 공격에 직면해 있습니다. [8] 출시 전의 정적 테스트가 실패하는 이유는 다음과 같습니다:

새로운 도구와 플러그인이 정기적으로 등장함.
모델 업데이트가 새로운 문제를 야기함.
공격 기술이 빠르게 진화함 (예: AI 보안 2026 예측). [8][12]

보험사는 다음 사항을 확인할 것입니다:

자동화된 레드팀 (red-teaming) 파이프라인.
위협 그래프 (threat graph)와 연계된 알려진 공격 트레이스의 정기적인 재현 (replay).
에이전트와 함께 배포되는 코드형 정책 (Policy-as-code) 가드레일. [1][8]

3.3 AI 생성 코드를 위한 보안 SDLC

반복적인 프롬프팅으로 인한 취약점 증폭 및 더 길어진 복구 시간(remediation times)을 고려할 때, 보험 가입이 가능한 SDLC는 DevOps, 데이터 엔지니어링, 그리고 데이터 사이언스를 다음과 같이 통합해야 합니다: [5]

AI 보조 커밋 (AI-assisted commits)을 식별하고 소프트웨어 공급망 보안 (software supply chain security)을 지원하기 위한 AI-BOM/PBOM 스캐닝. [5]
수정 사항을 제안, 테스트 및 문서화하는 에이전트 기반 복구 계층 (Agentic remediation layers). [5]
CI/CD 및 모델 배포 단계에서의 코드 보안 에이전트.

IaC (Infrastructure as Code)는 GPU 환경, 모델 게이트웨이 (model gateways), 벡터 데이터베이스 (vector databases), 관측성 (observability), 그리고 비밀 정보 (secrets)를 표준화해야 합니다. AI 출력물을 "단순한 또 다른 차이점 (just another diff)"로 취급하는 것은 보안 및 언더라이팅 (underwriting) 관점에서 규정 위반이 될 수 있습니다.

3.4 사이버 방어 워크플로우에서의 AI

지속적인 공격 표면 모니터링 (continuous attack surface monitoring) 및 사고 대응 (incident response)에 투입되는 AI 에이전트는 다음과 같은 리스크를 초래합니다:

오분류 및 알림 피로 (alert fatigue).
에이전트 침해로 인한 잘못된 대응 경로 지정 또는 알림 억제. [3]

이제 이사회는 AI 거버넌스 (AI governance) 및 리스크 관리 (risk management)에 기반하여 에이전트 보안, 사기 탐지, 그리고 사이버 탄력성 (cyber resilience)에 대한 통합된 서사를 기대합니다. [12] 언더라이터들은 이러한 프로그램들을 선도적인 보안 프레임워크와 비교하여 벤치마킹할 것입니다.

💡 평가 위생 (Evaluation hygiene): 취약점 스캐너를 위한 판사로서의 LLM (LLMs-as-judges) 방식은 오탐 (false positives), 컨텍스트 공백, 그리고 회귀 (regression)를 유발할 수 있으므로, 도구를 메타 평가하기 위해 고정된 벤치마크 (frozen benchmarks)와 재현 가능한 공격 추적 (replayable attack traces)이 필요합니다. [1] 보험사는 이러한 증거를 요구할 것입니다.

4. 보험 가입이 가능한 AI 시스템 설계: 실무 지침

보험사의 기대치를 설계 제약 조건 (design constraints)으로 취급할 때, 확정적인 AI 보장 (Affirmative AI coverage)을 달성할 수 있습니다.

4.1 이중 용도 사기 방어 계층 구축

생성형 AI (GenAI)는 자동차 및 손해보험 (P&C) 라인에서 사기를 증폭시키기도 하지만 탐지 능력도 향상시킵니다. [9][11] AI 증강 워크플로우를 중심으로 사기 방지 파이프라인을 설계하십시오:

보험금 청구/보험 증권 데이터의 풍부한 수집 및 강화 (enrichment).
머신러닝 (ML), 딥러닝 (deep learning), 그래프 분석 (graph analytics), 그리고 생성형 AI 텍스트 분석을 활용한 다중 모델 이상 탐지 (multi-model anomaly detection). [11]
고위험 또는 신뢰도가 낮은 사례에 대한 인간 참여형 (Human-in-the-loop) 검토.

파이프라인은 언더라이터를 위해 로그, 피처 계보 (feature lineage), 그리고 결정 추적 (decision traces)을 통해 감사 가능해야 합니다. [9][11]

4.2 모듈형, 설명 가능한 사기 모델

연구에 따르면 지도 학습/비지도 학습 (supervised/unsupervised) 모델, 딥러닝 (deep learning), 이상 탐지 (anomaly detection), 그리고 NLP를 실시간 피드백 루프와 결합한 모듈형 사기 아키텍처 (modular fraud architectures)가 효과적입니다. [10] 이점:

장애 격리 및 롤백 (rollback).
새로운 모듈의 안전한 샌드박싱 (sandboxing).
모듈에서 보험 가능 이벤트 (insurable events)로의 명확한 매핑. [10]

보험 서류 (insurance dossier)의 일부로서 모듈별 메트릭 (metrics), 드리프트 모니터 (drift monitors), 그리고 명시적인 리스크 티어 (risk tiers)를 유지하십시오.

4.3 에이전트 네이티브 관측 가능성 및 안전성 (Agent-native observability and safety)

다음 사항을 위해 첫날부터 OpenTelemetry 스타일의 계측 (instrumentation)을 도입하십시오:

LLM 호출, 도구 (tools), 검색 (retrieval), 그리고 추론 경로 (reasoning paths). [7]
지속적인 평가 스위트 (eval suites), 코드로서의 정책 가드레일 (policy-as-code guardrails), 그리고 런타임 개입 (runtime interventions). [1][7]

레드팀 (Red teaming) 및 편향성 평가 (bias evaluations)는 필수적입니다. 테스트된 모든 프런티어 LLM (frontier LLMs)이 유해한 고정관념을 생성할 수 있다는 실증적 증거는 안전성이 곧 엔지니어링 문제임을 확인시켜 줍니다. [1]

4.4 하드웨어 및 제공업체 집중도 (Hardware and provider concentration)

제공업체들이 모델 및 런타임 (runtimes)과 밀접하게 결합된 맞춤형 가속기 (custom accelerators)를 채택함에 따라, 다음 사항을 문서화하십시오:

제공업체 의존성 및 SLA (Service Level Agreements).
장애 조치/멀티 리전 (failover/multi-region) 전략 및 용량 제한 (capacity constraints).
출구 전략 (exit plans) 및 다각화 옵션. [4]

💼 이점: 단일 제공업체 중단에 대한 탄력성 (resilience)을 입증하면 AI 리스크 프로필 (risk profile)을 개선할 수 있습니다.

4.5 신흥 정책 기대치와의 정렬 (Align with emerging policy expectations)

국가 및 유럽의 이니셔티브는 오픈 웨이트 모델 (open-weight models), 신속한 도입, 그리고 강력한 보안 및 평가 생태계를 장려합니다. [2][6] 다음을 고려하여 설계하십시오:

샌드박스 처리된 에이전트 환경 (Sandboxed agent environments).
인지 (perception), 추론 (reasoning), 행동 (action), 그리고 메모리 (memory) 전반에 걸친 계층적 방어. [3]
EU AI Act와 같은 규제 체제를 충족하는 평가 및 감사 추적 (audit trails).

이러한 정렬은 Mayflower 및 Hadron과 같은 프로그램으로부터 더 나은 조건을 이끌어낼 수 있는 위치를 확보해 줍니다.

결론: 보험 가능성을 아키텍처 제약 조건으로 활용하라

확정적 AI 책임 (Affirmative AI liability)은 이제 AI가 사기 탐지 (fraud detection), 사이버 방어 (cyber defense), 그리고 핵심 운영 (core operations)의 근간을 이루고 있기 때문에 부상하고 있습니다. 보험 가능성 (insurability)을 신뢰성 (reliability), 규제 준수 (regulatory compliance), 그리고 AI 거버넌스 (AI governance)와 대등한 아키텍처 요구 사항 (architectural requirement)으로 취급하는 것은 법률적 언어를 구체적인 엔지니어링 실무로 전환합니다. Mayflower 및 Hadron과 같은 프로그램은 정책 조항 (policy clauses)이 특정 에이전트 (agents), 제어 장치 (controls), 그리고 텔레메트리 (telemetry)에 직접 매핑될 때 가장 효과적으로 작동합니다. 이것이 바로 AI 시스템이 단순히 배포 가능한 수준을 넘어, 지속적으로 보험 가입이 가능한 (durably insurable) 상태가 되는 방법입니다.

About CoreProse: 검증된 인용을 포함한 연구 중심의 AI 콘텐츠 생성. 환각 (hallucinations) 제로.

🔗 Try CoreProse | 📚 More KB Incidents

Insights