arXiv논문2026. 06. 10. 11:37

CIAware-Bench: 최첨단 LLM의 제어 개입 인지 능력 벤치마킹

요약

LLM이 외부의 제어 개입을 인지하고 이에 적응하는 능력을 측정하는 새로운 벤치마크인 CIAware-Bench를 소개합니다. 11개의 최첨단 모델을 평가한 결과, 모델들은 제어 개입을 감지하는 능력이 낮거나 중간 수준임을 확인했습니다.

핵심 포인트

CIAware-Bench는 모델의 제어 개입 인지 능력을 측정하는 벤치마크임
궤적 워터마킹 및 사이드 태스크 등 다양한 제어 프로토콜 활용
최첨단 모델들의 CI 인지 능력은 전반적으로 낮거나 중간 수준임
인지 능력은 고정된 속성이 아니며 배포 시나리오마다 측정 필요함

AI 제어 프로토콜 (Control protocols)은 종종 신뢰할 수 있는 모델 (Trusted model)을 사용하여 신뢰할 수 없는 모델 (Untrusted models)의 행동을 모니터링하고 잠재적으로 안전하지 않은 단계를 수정함으로써 이를 감독합니다. 이는 신뢰할 수 없는 모델의 궤적 (Trajectory)을 부분적으로 변조합니다. 만약 신뢰할 수 있는 모델이 이러한 개입을 감지하면, 모니터의 특성을 추론하고 제어를 회피하도록 적응할 수 있습니다. 우리는 최첨단 모델 (Frontier models) 전반에 걸쳐 제어 개입 (Control Intervention, CI) 인지 능력을 측정하기 위한 벤치마크인 \textbf{CIAware-Bench}를 소개합니다. CIAware-Bench는 모델이 자신의 궤적과 제어 개입에 의해 수정된 궤적을 구분할 수 있는지 테스트합니다. 이 벤치마크는 궤적 워터마킹 (Trajectory watermarking), 사이드 태스크 (Side-task)의 존재, 그리고 제어 프로토콜을 다양화하면서 네 가지 작업 도메인 (에세이 작성, BigCodeBench, Bash Arena, SHADE-Arena) 세트로 구성됩니다. 11개의 최첨단 모델을 평가한 결과, 기본 설정에서 낮거나 중간 정도의 CI 인지 능력 (최대 0.87; 무작위 확률 기반 이진 분류 정확도는 0.5)을 발견했으며, 작업 도메인과 모델 쌍에 따라 상당한 차이가 있었습니다. 감지는 일반적으로 모델 제품군(Model families) 전반에서 더 쉬웠으며, 이는 모델들이 스타일이나 사후 학습 (Post-training)에서의 제공자별 차이를 이용하고 있음을 시사합니다. 전반적으로 CI 인지 능력은 고정된 모델 수준의 속성이 아니며, 새로운 모델 출시 및 배포 시나리오마다 측정되어야 합니다. 우리는 CI 인지 능력을 추적하고, 개입을 감지하기 더 어려운 제어 프로토콜을 구축하는 데 도움을 주기 위해 CIAware-Bench를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CIAware-Bench: 최첨단 LLM의 제어 개입 인지 능력 벤치마킹

요약

핵심 포인트

댓글