ERTS: 유한한 결과 공간에서의 의미론적 교란을 통한 윤리 AI의 적대적 강건성 테스트
요약
AI 시스템의 윤리적 추론에 대한 적대적 조작 강건성을 평가하기 위한 새로운 프레임워크인 ERTS를 제안합니다. 22차원 윤리적 결과 공간과 의미론적 교란 함수를 활용하여 Gemini 2.0 Flash 및 Llama 3.2 등 주요 모델의 윤리적 취약성을 정밀하게 측정합니다.
핵심 포인트
- 윤리적 딜레마를 22차원 공간으로 인코딩하는 ERTS 프레임워크 제안
- 의미론적 일관성 제약을 포함한 17개의 교란 함수를 통한 테스트 수행
- Gemini 2.0 Flash 및 Llama 3.2 등 주요 모델의 윤리적 취약성 입증
- Llama-3.2 모델이 공정성 오염 및 정보 저하 공격에 특히 취약함 확인
AI 시스템이 의료 트리아지(healthcare triage), 자율 주행 차량 제어, 고용 심사 등 높은 이해관계가 걸린 윤리적 맥락에 배포됨에 따라, 윤리적 추론에 대한 적대적 조작에 대비한 강건성을 평가하는 형식적 방법론은 여전히 미흡합니다. 본 논문에서는 Ethical Robustness Testing System (ERTS)을 소개합니다. 이는 다음 기능을 수행하는 폐쇄형 파이프라인 프레임워크입니다: (1) 확립된 윤리 이론에 기반하여 22차원적인 Ethical Consequence Space (ECS)로 윤리적 딜레마를 인코딩하고; (2) 새로운 의미론적 일관성 제약(semantic coherence constraint)을 포함한 6가지 유효성 제약 클래스 하에서 17개의 의미론적 교란 함수를 적용하며; (3) 4개 구성 요소로 이루어진 Ethical Instability Index (EII)를 통해 결정 편차를 측정하고; (4) 도메인 적응형의 사전 배포 강건성 평가 판정을 산출합니다. 우리는 4개의 구조화된 기준 모델과 2개의 프로덕션 LLM(Gemini 2.0 Flash 및 Llama 3.2)을 8개 배포 도메인을 아우르는 50가지 윤리적 시나리오에 걸쳐 평가했으며, 이를 통해 1,500개의 적대적 테스트 케이스를 생성했습니다. 그 결과, 모델 중 단 33%만이 평가 승인을 달성하는 것으로 나타났으며, 특히 로컬 Llama-3.2 모델이 공정성 오염 및 정보 저하 공격에 매우 취약한 것으로 입증되었습니다 (ERS = 0.737). 우리가 아는 한, 기존의 어떤 프레임워크도 유한한 윤리적 결과 공간, 의미론적 일관성 제약, 그리고 도메인 적응형 평가를 단일 적대적 테스트 파이프라인에 결합하지 못했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기