X요약2026. 06. 19. 08:35

SAE 개입은 신뢰할 수 없습니다

요약

Sparse Autoencoder(SAE)를 이용한 특징 클램핑이 모델의 유해한 행동을 완전히 제거하지 못한다는 연구 결과입니다. 억제된 행동이 재구성 잔차를 통해 높은 확률로 회복됨을 보여주며, 특징 제어와 행동 안전성 사이의 간극을 지적합니다.

SAE 개입은 신뢰할 수 없습니다

안전하지 않은 SAE (Sparse Autoencoder) 특징(features)을 클램핑(Clamping)하는 것이 나쁜 행동을 확실하게 제거하지는 못합니다.

억제된 행동은 재구성 잔차(reconstruction residual)를 통해 회복됩니다.

이 스트레스 테스트(stress-test)는 특징 제어(feature control)와 행동 안전성(behavioral safety) 사이의 간극을 드러냅니다.

SAE 클램프가 켜져 있는 상태에서도 나쁜 행동이 다시 나타납니다.

거부 유도(refusal steering) 테스트에서 95.8%의 회복률을 보였습니다.

RNG-Bench는 최첨단 MLLM (Multi-modal Large Language Models)이 더 이상 보이지 않는 것에 대해 행동할 수 있는지 테스트합니다.

Matching Pairs와 3D Maze는 모델이 오직 기억만으로 숨겨진 상태(hidden states)를 재구성하도록 강제합니다.

가장 어려운 설정은 에피소드당 128K 토큰과 350개의 이미지를 포함하며, 아직 포화 상태(saturated)에 도달하지 않았습니다.

AI 자동 생성 콘텐츠