Eticas AI 리스크 분류 체계: AI 감사(Audit)의 실행을 위한 개방형 인프라

고위험 영역 전반에 걸친 AI 시스템의 급격한 배포는 표준화된 평가에 대한 긴급한 수요를 창출했으나, 이 분야는 리스크를 목록화할 뿐 감사가 어떻게 실행되는지는 보여주지 않는 경쟁적인 리스크 분류 체계(Risk Taxonomies)들로 인해 여전히 파편화되어 있습니다. 최소 74개의 AI 리스크 분류 체계가 존재하며, 거의 모든 체계가 목록화 단계에서 멈춰 있습니다. 감사의 어려운 점은 리스크의 이름을 붙이는 것이 아니라 이를 실행(Operationalizing)하는 것입니다. 즉, 리스크를 실제 시스템에 대한 테스트 실행, 측정된 값, 보정된 심각도(Calibrated severity), 그리고 방어 가능한 등급으로 전환하는 것입니다. 본 논문은 그 가교 역할을 제안합니다. 우리는 Eticas가 구축하고 운영해 온 실행 계층(Operationalization layer)을 제시하며, 이를 공개 벤치마크를 대상으로 한 단일 리스크(PII 유출)에 대해 엔드 투 엔드(End-to-end)로 보여준 뒤, 이 방법론을 확장 가능하게 만드는 개방형 분류 체계를 제시합니다. GPT-4-0314에서, 7개의 외부 프레임워크가 통제할 것을 요구하는 정보 공개 리스크(Disclosure risk)는 적대적 조건화(Adversarial conditioning)가 증가함에 따라 각각 0%, 51%, 84%의 공개율로 측정되었으며, 이는 보정된 심각도 대역을 통해 SYSTEMIC 패턴을 가진 하위 범주 등급 E로 매핑되었습니다. 이 예시를 중심으로, Eticas AI Risk Taxonomy v2.0.0은 10개의 카테고리와 20개의 하위 그룹에 걸쳐 76개의 활성 하위 범주를 구성하며, 컴플라이언스(Compliance), 참조(Reference), 학술(Academic) 계층에 걸친 18개의 외부 프레임워크와 매핑됩니다. 카테고리 및 하위 그룹 계층은 안정적인 URI와 SKOS/JSON-LD 배포를 갖춘 개방형 시맨틱 인프라(Open semantic infrastructure)로서 CC BY 4.0 하에 공개되며, 작업된 하위 범주 예시는 심각도 임계값까지의 실행 계층을 보여줍니다. 본 연구의 기여는 개념에서 등급이 매겨진 결과(Graded finding)로 이어지는 입증된 가교를 제공하는 것이며, 이는 리스크와 리스크가 드러나는 메커니즘을 깔끔하게 분리하고, 개념적 비계(Scaffold)는 개방되어 있고 방법론적 보정은 실무자 계층인 오픈 코어(Open-core) 모델로 프레임화함으로써 이루어집니다. 이것이 바로 AI 감사 분야에 필요한 인프라, 즉 공유되고, 개방적이며, 입증 가능하게 작동하는 인프라입니다.

Insights

Eticas AI 리스크 분류 체계: AI 감사(Audit)의 실행을 위한 개방형 인프라

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때