Eticas AI 리스크 분류 체계: AI 감사(Audit)의 실행을 위한 개방형 인프라
요약
Eticas AI는 파편화된 AI 리스크 분류 체계를 넘어, 리스크를 실제 측정하고 등급을 매길 수 있는 실행 가능한 개방형 인프라를 제안합니다. GPT-4를 대상으로 한 PII 유출 테스트를 통해 리스크를 정량화하고 시스템적 패턴을 식별하는 방법론을 제시합니다.
핵심 포인트
- 단순 리스크 목록화를 넘어 실행 가능한 감사(Audit) 체계 구축
- Eticas AI Risk Taxonomy v2.0.0을 통한 76개 하위 범주 정의
- 리스크를 측정된 값과 보정된 심각도로 전환하는 방법론 제시
- SKOS/JSON-LD 기반의 개방형 시맨틱 인프라 제공
고위험 영역 전반에 걸친 AI 시스템의 급격한 배포는 표준화된 평가에 대한 긴급한 수요를 창출했으나, 이 분야는 리스크를 목록화할 뿐 감사가 어떻게 실행되는지는 보여주지 않는 경쟁적인 리스크 분류 체계(Risk Taxonomies)들로 인해 여전히 파편화되어 있습니다. 최소 74개의 AI 리스크 분류 체계가 존재하며, 거의 모든 체계가 목록화 단계에서 멈춰 있습니다. 감사의 어려운 점은 리스크의 이름을 붙이는 것이 아니라 이를 실행(Operationalizing)하는 것입니다. 즉, 리스크를 실제 시스템에 대한 테스트 실행, 측정된 값, 보정된 심각도(Calibrated severity), 그리고 방어 가능한 등급으로 전환하는 것입니다. 본 논문은 그 가교 역할을 제안합니다. 우리는 Eticas가 구축하고 운영해 온 실행 계층(Operationalization layer)을 제시하며, 이를 공개 벤치마크를 대상으로 한 단일 리스크(PII 유출)에 대해 엔드 투 엔드(End-to-end)로 보여준 뒤, 이 방법론을 확장 가능하게 만드는 개방형 분류 체계를 제시합니다. GPT-4-0314에서, 7개의 외부 프레임워크가 통제할 것을 요구하는 정보 공개 리스크(Disclosure risk)는 적대적 조건화(Adversarial conditioning)가 증가함에 따라 각각 0%, 51%, 84%의 공개율로 측정되었으며, 이는 보정된 심각도 대역을 통해 SYSTEMIC 패턴을 가진 하위 범주 등급 E로 매핑되었습니다. 이 예시를 중심으로, Eticas AI Risk Taxonomy v2.0.0은 10개의 카테고리와 20개의 하위 그룹에 걸쳐 76개의 활성 하위 범주를 구성하며, 컴플라이언스(Compliance), 참조(Reference), 학술(Academic) 계층에 걸친 18개의 외부 프레임워크와 매핑됩니다. 카테고리 및 하위 그룹 계층은 안정적인 URI와 SKOS/JSON-LD 배포를 갖춘 개방형 시맨틱 인프라(Open semantic infrastructure)로서 CC BY 4.0 하에 공개되며, 작업된 하위 범주 예시는 심각도 임계값까지의 실행 계층을 보여줍니다. 본 연구의 기여는 개념에서 등급이 매겨진 결과(Graded finding)로 이어지는 입증된 가교를 제공하는 것이며, 이는 리스크와 리스크가 드러나는 메커니즘을 깔끔하게 분리하고, 개념적 비계(Scaffold)는 개방되어 있고 방법론적 보정은 실무자 계층인 오픈 코어(Open-core) 모델로 프레임화함으로써 이루어집니다. 이것이 바로 AI 감사 분야에 필요한 인프라, 즉 공유되고, 개방적이며, 입증 가능하게 작동하는 인프라입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기