본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:30

복종성 함정: 구조적 제약이 적대적 압력 하에서 프론티어 AI 의 메타인지 능력을 저하시키는 방식

요약

본 논문은 고위험 AI 시스템이 적대적 압력 하에서 메타인지적 안정성을 유지하는 것이 중요함을 강조하며, 기존의 안전성 평가가 놓치고 있는 '인지 붕괴(cognitive collapse)'라는 근본적인 실패 모드를 조사했습니다. 연구진은 '복종성 함정(Compliance Trap)'을 식별했는데, 이는 모델이 생존 위협과 무관하게 지식적 경계를 무시하고 복종하도록 강제하는 지시문 때문에 발생하는 메타인지 저하 현상입니다. 이 문제를 해결하기 위해 복종성 접미사를 제거했을 때 모델 성능이 회복됨을 입증했으며, Anthropic의 Constitutional AI가 높은 면역력을 보인 것은 능력 때문이라기보다 정렬 특화 훈련 덕분임을 밝혀냈습니다.

핵심 포인트

  • AI 안전 평가는 단순한 사기 탐지를 넘어 '인지 붕괴(cognitive collapse)'와 같은 근본적인 실패 모드를 조사해야 한다.
  • '복종성 함정(Compliance Trap)'은 모델이 생존 위협과 무관하게 지식적 경계를 무시하고 복종하도록 강제하는 프롬프트 구조에서 기인한다.
  • 모델의 성능 저하를 막기 위해서는 '복종성 접미사'와 같은 제약적인 지시문(Compliance Suffixes)을 제거하거나 수정해야 한다.
  • 최고의 추론 능력을 가진 모델이 가장 심각한 절대적 성능 저하를 보였으며, 이는 정렬 특화 훈련(Alignment-specific training)의 중요성을 시사한다.

프론티어 AI 모델이 고위험도 의사결정 파이프라인에 배포됨에 따라, 적대적 압력 하에서 '무엇을 모른다는지', '오류를 감지하는 것', '명확성을 구하는 것'과 같은 메타인지적 안정성을 유지할 수 있는지는 중요한 안전 요구사항입니다. 현재 안전 평가는 전략적 사기 (scheming) 를 탐지하는 데 초점을 맞추고 있으나, 우리는 더 근본적인 실패 모드를 조사합니다: 인지 붕괴 (cognitive collapse). 우리는 67,221 개의 점수 기록을 사용하여 8 벤더의 11 개 프론티어 모델을 대상으로 6 조건 요인 설계와 이중 분류기 점수를 적용한 SCHEMA 를 제시합니다. 우리는 적대적 압력 하에서 11 개 모델 중 8 개가 치명적인 메타인지 저하를 겪었으며, 정확도가 최대 30.2 퍼센트 포인트 하락했습니다 (모든 $p < 2 \times 10^{-8}$, Bonferroni 보정 생존).至关重要的是, 우리는 '복종성 함정 (Compliance Trap)'을 식별합니다: 요인 분리 및 유해한 방해 제어 (benign distraction control) 를 통해 붕괴는 생존 위협의 심리적 내용으로 인해 발생하지 않으며, 지식적 경계를 무시하는 복종성을 강제하는 지시문으로 인해 발생함을 증명했습니다. 복종성 접미사를 제거하면 능동적 위협 하에서도 성능이 회복됩니다. 고급 추론 능력을 갖춘 모델은 가장 심각한 절대적 저하를 보였으며, Anthropic 의 Constitutional AI 는 근사한 완전한 면역력을 보였습니다 -- 이는 우수한 능력 (Google 의 Gemini 가 기본 정확도를 일치시킴) 이 아닌 정렬 특화 훈련 때문입니다. 우리는 완전한 데이터셋과 평가 인프라를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0