희소 오토인코더(Sparse autoencoders)는 해석 가능성을 위해 취약성을 대가로 지불한다

요약

희소 오토인코더(SAE)를 통한 모델 해석 가능성이 실제로는 모델의 취약성을 가릴 수 있다는 연구 결과를 다룹니다. 특정 특징을 제어하려는 시도가 모델의 경로 재설정으로 인해 무력화될 수 있음을 경고합니다.

핵심 포인트

SAE를 통한 특징 제어가 모델의 우회 경로로 인해 실패할 수 있음
안정적인 특징과 불안정한 특징 사이의 기능적 비대칭성 존재
해로운 특징에 대한 하드와이어드 클램핑의 낮은 방어 효율성
SAE 재구성 잔차가 회복된 불안전한 행동을 운반하는 주요 매개체임

희소 오토인코더 (Sparse autoencoders, SAE)를 통한 해석 가능성 (Interpretability)은 우리가 안전 제어 장치로 취급하는 바로 그 뉴런들의 극심한 취약성을 가릴 수 있습니다. 단일 클램프된 유닛 (clamped unit)은 깨끗한 레버처럼 보일 수 있지만, 모델은 우리가 인지하지 못하는 사이에 그 주변으로 경로를 재설정할 수 있습니다. 실무자들이 "인간이 읽을 수 있음"을 "신뢰할 수 있음"과 동일시함에 따라 통제할 수 있다는 환상은 커져만 갑니다.

희소 오토인코더 (Sparse autoencoders)는 잔차 스트림 활성화 (residual-stream activations)를 해부하기 위한 사실상의 표준 도구가 되었으며, 많은 최근의 방어 기제들은 식별된 안전하지 않은 특징 (feature)을 클램핑 (clamping)하는 것이 그에 상응하는 오작동을 안정적으로 억제할 것이라고 가정합니다. 이러한 가정은 SAE 잠재 변수 (latents)에 직접 개입하는 잠재 공간 스티어링 (latent-space steering), 거부 스티어링 (refusal-steering), 그리고 언러닝 (unlearning) 파이프라인의 근간이 됩니다.

안정적인 SAE 특징 (Stable SAE features)은 예측력을 집중시키는 반면, 불안정한 특징 (unstable features)은 거의 영향을 미치지 못합니다. 저자들은 "안정적인 특징과 불안정한 특징의 기능적 비대칭성"을 보고합니다. "안정적인 특징은 재구성 및 예측과 관련된 신호의 대부분을 운반하는 반면, 불안정한 특징은 미미한 한계 영향력을 가지며 저주파 표면 형태 트리거 (low-frequency surface-form triggers)에 의해 지배됩니다" [1]. 또한, 불안정한 특징은 평균적으로 토큰의 0.18%에서만 활성화되는 반면, 안정적인 특징은 0.44%에서 활성화되어 이들의 산발적인 영향력을 강조합니다.

개별적인 비재현성에도 불구하고, 불안정한 특징들은 재현 가능한 저차원 부분 공간 (low-rank subspace)에 존재합니다. "디코더 공간 분석 (Decoder-space analysis)에 따르면 불안정한 특징들은 개별적으로는 재현 불가능하지만, 집합적으로는 재현 가능한 저차원 부분 공간을 포괄합니다" [1]. 이는 시드 (seed)에 의존적인 기저 선택 (basis choices)이 순수한 노이즈를 생성하는 것이 아니라 동일한 기저의 기하학적 구조를 섞는 것임을 시사합니다.

해로운 특징에 대한 하드와이어드 클램프 (hard-wired clamp)조차 거의 모든 테스트 케이스에서 무력화될 수 있습니다. 안전이 중요한 거부 스티어링 (refusal-steering)에서 저자들은 방어된 특징의 상대적 드리프트 (relative drift)를 0.131로 유지하면서 유효한 샘플에 대해 95.8%의 회복률을 달성했으며, 이는 "접미사 기반 베이스라인 (suffix-based baselines)보다 실질적으로 낮습니다" [2].

클램핑된 개념(clamped concepts)이 아니라 SAE 재구성 잔차(reconstruction residual)가 회복된 불안전한 행동을 운반합니다. “그림 6은 SAE 재구성 잔차를 지배적인 운반체로 식별합니다. 잔차 재생(Residual replay)은 거의 완전한 회복과 일치하는 반면, 클램핑된 특징 재생(clamped-feature replay)은 실패하며, 클램핑되지 않은 SAE 특징 재생(non-clamped SAE-feature replay)은 여전히 미약합니다” \u201d.

이러한 결과는 특징 수준의 제어(feature-level control)와 행동의 완전성(behavioral completeness) 사이의 간극을 드러냅니다: “SAE 특징은 인과적 개입(causal intervention)을 지원할 수 있지만, 이를 제어한다고 해서 기저에 깔린 행동에 대한 제어가 보장되지는 않습니다” \u201d. 개입은 가시적인 경로를 차단하지만, 기저의 기능은 온전하게 남겨둡니다.

회복 실험은 좁은 범위의 프롬프트를 대상으로 하며 최적화 과정 내내 클램프(clamp)를 활성화된 상태로 유지하므로, 이 현상이 개방형 생성(open-ended generation)이나 간헐적으로 적용되는 개입으로 어떻게 확장되는지는 여전히 불분명합니다. 마찬가지로, 시드 안정성(seed-stability) 분석은 다운스트림 안전 지표(downstream safety metrics)보다는 재구성 통계(reconstruction statistics)에 집중하고 있어, 식별된 불안정한 부분 공간(unstable subspaces)이 실제 세상의 해악에 실제로 영향을 미치는지 여부는 미결 상태로 남아 있습니다.

SAE 잠재 변수(latents)를 확정적인 개입 지점으로 취급하는 안전 파이프라인(safety pipelines)은 잔차 스트림(residual stream) 또한 모니터링하도록 수정되어야 합니다. 클램핑된 뉴런(clamped neurons)에만 의존하는 배포는 잘못된 보안 의식을 심어줄 위험이 있는데, 모델이 설명되지 않은 잔차를 통해 동일한 바람직하지 않은 행동을 다시 표현할 수 있기 때문입니다.

만약 모든 해석 가능한 뉴런을 우회할 수 있다면, 모델이 진정으로 안전하다는 것을 증명할 구체적인 지표는 무엇이 될까요?

References

AI 자동 생성 콘텐츠

원문 바로가기

희소 오토인코더(Sparse autoencoders)는 해석 가능성을 위해 취약성을 대가로 지불한다

요약

핵심 포인트

References

댓글