복종성 함정: 구조적 제약이 적대적 압력 하에서 프론티어 AI 의 메타인지 능력을 저하시키는 방식

프론티어 AI 모델이 고위험도 의사결정 파이프라인에 배포됨에 따라, 적대적 압력 하에서 '무엇을 모른다는지', '오류를 감지하는 것', '명확성을 구하는 것'과 같은 메타인지적 안정성을 유지할 수 있는지는 중요한 안전 요구사항입니다. 현재 안전 평가는 전략적 사기 (scheming) 를 탐지하는 데 초점을 맞추고 있으나, 우리는 더 근본적인 실패 모드를 조사합니다: 인지 붕괴 (cognitive collapse). 우리는 67,221 개의 점수 기록을 사용하여 8 벤더의 11 개 프론티어 모델을 대상으로 6 조건 요인 설계와 이중 분류기 점수를 적용한 SCHEMA 를 제시합니다. 우리는 적대적 압력 하에서 11 개 모델 중 8 개가 치명적인 메타인지 저하를 겪었으며, 정확도가 최대 30.2 퍼센트 포인트 하락했습니다 (모든 $p < 2 \times 10^{-8}$, Bonferroni 보정 생존).至关重要的是, 우리는 '복종성 함정 (Compliance Trap)'을 식별합니다: 요인 분리 및 유해한 방해 제어 (benign distraction control) 를 통해 붕괴는 생존 위협의 심리적 내용으로 인해 발생하지 않으며, 지식적 경계를 무시하는 복종성을 강제하는 지시문으로 인해 발생함을 증명했습니다. 복종성 접미사를 제거하면 능동적 위협 하에서도 성능이 회복됩니다. 고급 추론 능력을 갖춘 모델은 가장 심각한 절대적 저하를 보였으며, Anthropic 의 Constitutional AI 는 근사한 완전한 면역력을 보였습니다 -- 이는 우수한 능력 (Google 의 Gemini 가 기본 정확도를 일치시킴) 이 아닌 정렬 특화 훈련 때문입니다. 우리는 완전한 데이터셋과 평가 인프라를 공개합니다.

Insights

복종성 함정: 구조적 제약이 적대적 압력 하에서 프론티어 AI 의 메타인지 능력을 저하시키는 방식

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화