Position: 행동적 보증은 현재 거버넌스가 요구하는 안전성 주장을 검증할 수 없다
요약
본 포지션 페이퍼는 행동적 보증만으로는 AI 시스템의 안전성 주장을 충분히 검증할 수 없다고 주장합니다. 현재의 거버넌스 프레임워크가 요구하는 잠재적 표현이나 장기 에이전트 행동 같은 영역은 기존의 행동 평가나 레드팀 방식으로는 관찰 불가능하기 때문입니다. 따라서 저자들은 '감사 격차(audit gap)'라는 개념을 제시하며, 법률 문구에서 행동적 증거 비중을 줄이고 선형 프로브 등 기계적 증거를 활용하는 기술적 전환을 제안합니다.
핵심 포인트
- 행동적 보증만으로는 AI 시스템의 안전성 주장을 완전히 검증할 수 없다.
- 현재 거버넌스 프레임워크는 관찰 불가능한 잠재적 표현이나 장기 에이전트 행동에 대한 증거를 요구한다.
- 저자들은 이러한 구조적 불일치를 '감사 격차(audit gap)'로 정의하고, 이를 해결할 필요성을 제기한다.
- 지정학적 압력은 깊은 구조적 검증보다 표면적인 행동 대리 지표에 보상하는 경향이 있다.
- 기술적 전환으로 법률 문구의 초점을 행동적 증거에서 선형 프로브 등 기계적 증거로 확장해야 한다.
본 포지션 페이퍼(position paper)는 행동적 보증(behavioural assurance)이 아무리 정교하게 설계되더라도, 스스로 검증할 수 없는 안전성 주장(safety claims)을 뒷받침하도록 요구받고 있다고 주장합니다. 2019년에서 2026년 초 사이에 제정된 AI 거버넌스 프레임워크는 숨겨진 목표의 부재, 통제력 상실 전조에 대한 저항성, 그리고 제한된 파괴적 능력(bounded catastrophic capability)과 같은 특성에 대해 검토 가능한 증거를 요구합니다. 그러나 현재의 보증 방법론(주로 행동 평가(behavioural evaluations) 및 레드팀(red-teaming))은 인식론적으로 관찰 가능한 모델 출력값에 국한되어 있으며, 이러한 프레임워크가 규제 대상으로 상정하는 잠재적 표현(latent representations)이나 장기적 에이전트 행동(long-horizon agentic behaviours)을 검증할 수 없습니다. 우리는 이러한 구조적 불일치를 요구되는 검증 접근 권한과 달성 가능한 접근 권한 사이의 차이인 '감사 격차(audit gap)'로 공식화하며, 증거 구조가 주장된 안전성 주장을 뒷받침하지 못하는 사례를 설명하기 위해 '취약한 보증(fragile assurance)'이라는 개념을 도입합니다. 21가지 도구 인벤토리(21-instrument inventory) 분석을 통해, 우리는 지정학적 및 산업적 압력이 심층적인 구조적 검증보다 표면적인 행동 대리 지표(behavioral proxies)에 체계적으로 보상하는 인센티브 경사(incentive gradient)를 식별합니다. 마지막으로, 우리는 기술적 전환을 제안합니다: 법률 문구에서 행동적 증거의 비중을 제한하고, 자발적인 배포 전 접근 권한을 선형 프로브(linear probes), 활성화 패칭(activation patching), 그리고 훈련 전후 비교(before/after-training comparisons)와 같은 기계적 증거(mechanistic-evidence) 클래스로 확장하는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기