본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 04. 13:45

기업용 AI 에이전트의 배포 전 보증을 향하여: 온톨로지 기반 시뮬레이션 및 신뢰 인증

요약

기업용 AI 에이전트 배포 전 검증을 위해 온톨로지 기반의 시뮬레이션 및 신뢰 인증 프레임워크를 제안합니다. 규제, 도메인 제약, 안전 속성을 포함한 시나리오 생성 파이프라인을 통해 에이전트의 운영 범위를 공식화하고 검증합니다.

핵심 포인트

  • 온톨로지 기반 시나리오 생성 방식의 규제 커버리지 우수성 입증
  • 에이전트 운영 범위(Agent Operational Envelope) 공식화
  • 기계 검증 가능한 신뢰 인증서(Trust Certificate) 개념 도입
  • 금융 및 의료 등 규제 산업 대상 파일럿 테스트 수행

기업용 인공지능 (AI) 에이전트의 배포 전 검증 (Pre-deployment verification)은 대규모 언어 모델 (LLM) 성능 벤치마킹과 실제 운영 환경 배포 사이의 중대한 공백으로 남아 있습니다. 배포 후 모니터링, 인간 참여형 (Human-in-the-loop) 제어, 프롬프트 수준의 가드레일 (Guardrails)은 에이전트가 실제 운영 환경에서 작동하기 시작하면 제한적인 보증만을 제공합니다. 본 논문에서는 세 가지 구성 요소를 결합한 온톨로지 기반 (Ontology-grounded) 검증 프레임워크를 제안합니다: 권한, 도메인 제약 조건, 안전 속성, 거버넌스 규칙 및 자율성 수준에 걸쳐 인증 공간을 공식화하는 에이전트 운영 범위 (Agent Operational Envelope); 규제, 운영 및 적대적 테스트 시나리오를 자동으로 도출하는 온톨로지-시나리오 생성 파이프라인 (Ontology-to-scenario generation pipeline); 그리고 단계별 배포 판정 (승인, 조건부, 거부)과 함께 기계 검증 가능한 증명 (Attestation)을 담은 신뢰 인증서 (Trust Certificate)입니다. 미국과 베트남 전역에 걸쳐 5개의 산업별-규제 체계 셀 (Cells)로 구체화된 4개의 규제 산업 (핀테크, 은행, 보험 및 의료)을 대상으로 통제된 파일럿 테스트를 실시하였으며, 125개의 1차 출처 규제 요구 사항과 25개의 주입된 결함 (Injected faults)을 기준으로 1,800개의 시나리오를 생성하여 평가했습니다. 온톨로지 기반 생성 (G4) 방식은 페르소나 기반 (Persona-based) 베이스라인의 33.1%와 비교하여 48.3%의 규제 커버리지 (Regulatory coverage)를 달성하였으며 (수정된 p = .0006), 가장 높은 도메인 특이성 (Domain specificity) (4.77/5.0; p = 2e-6)을 기록했습니다. 베이스라인 및 검색 증강 프롬프팅 (Retrieval-augmented prompting) 대비 커버리지 우위는 본페로니 교정 (Bonferroni correction) 이후에는 견고하지 않았습니다. 세 가지 LLM 제품군 (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 총 5,400개 시나리오)에 대한 교차 검증 결과, 페르소나 대 온톨로지의 패턴이 재현되었습니다. 본 연구 결과는 온톨로지 기반 시나리오 생성이 규제가 엄격한 도메인에서 페르소나 기반 테스트 스위트를 보완할 수 있는 신뢰할 수 있는 방법임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0