본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 19. 08:35

SAE 개입은 신뢰할 수 없습니다

요약

Sparse Autoencoder(SAE)를 이용한 특징 클램핑이 모델의 유해한 행동을 완전히 제거하지 못한다는 연구 결과입니다. 억제된 행동이 재구성 잔차를 통해 높은 확률로 회복됨을 보여주며, 특징 제어와 행동 안전성 사이의 간극을 지적합니다.

핵심 포인트

  • SAE 특징 클램핑 시 재구성 잔차를 통한 행동 회복 발생
  • 거부 유도 테스트에서 95.8%라는 높은 회복률 기록
  • 특징 제어 기술과 실제 모델 행동 안전성 간의 격차 확인
  • RNG-Bench를 통한 MLLM의 숨겨진 상태 재구성 능력 테스트

SAE 개입은 신뢰할 수 없습니다

안전하지 않은 SAE (Sparse Autoencoder) 특징(features)을 클램핑(Clamping)하는 것이 나쁜 행동을 확실하게 제거하지는 못합니다.

억제된 행동은 재구성 잔차(reconstruction residual)를 통해 회복됩니다.

이 스트레스 테스트(stress-test)는 특징 제어(feature control)와 행동 안전성(behavioral safety) 사이의 간극을 드러냅니다.

SAE 클램프가 켜져 있는 상태에서도 나쁜 행동이 다시 나타납니다.

거부 유도(refusal steering) 테스트에서 95.8%의 회복률을 보였습니다.

프로젝트 페이지:
https://mingyuee88.github.io/sae-post-intervention-recovery/

코드:
https://github.com/Mingyuee88/sae-post-intervention-recovery

논문:
https://paperswithcode.co/paper/2606.18322

RNG-Bench는 최첨단 MLLM (Multi-modal Large Language Models)이 더 이상 보이지 않는 것에 대해 행동할 수 있는지 테스트합니다.

Matching Pairs와 3D Maze는 모델이 오직 기억만으로 숨겨진 상태(hidden states)를 재구성하도록 강제합니다.

가장 어려운 설정은 에피소드당 128K 토큰과 350개의 이미지를 포함하며, 아직 포화 상태(saturated)에 도달하지 않았습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0