r/LocalLLaMA분석2026. 06. 23. 06:28

새로운 ablation 연산자 (apostate)

요약

Apostate의 새로운 대조적 공벡터 편집(contrastive co-vector edit) 연산자를 소개합니다. 이 방식은 무해한 동작을 보존하면서 거부 방향만을 정밀하게 제거하여, Granite-3.3-8b 모델에서 거부율을 96%에서 5%로 대폭 낮추는 성과를 보였습니다.

핵심 포인트

대조적 공벡터 편집을 통한 정밀한 거부 방향 제거
무해한 활성화 성분은 유지하고 거부 성분만 선택적 제거
Granite 모델 테스트 결과 거부율 96%에서 5%로 감소
무해한 동작에 대한 KL 발산(변화)을 최소화

오늘 apostate에 새로운 연산자를 추가했습니다. 이 새로운 연산자는 대조적 공벡터 편집 (contrastive co-vector edit) $E = I − R D^T$ 입니다. 거부 방향 (refusal direction)을 완전히 제거하면 무해한 동작 (benign behavior)을 방해하게 되며, 반대로 그 방향을 따라 모든 무해한 분산 (harmless variance)을 단순히 보존하면 일반적인 동작과 얽혀 있는 거부 (refusal)가 그대로 남게 됩니다. 대신 $D = R − W$를 사용하며, 여기서 예측기 (predictor) $W$는 유해한 프롬프트 (harmful prompts)에 대해서는 명시적으로 억제되면서 $R$을 따른 무해한 분산을 재현하도록 학습됩니다 — $W = (A^T A + \gamma \cdot C^T C + \lambda I)^{-1} A^T b$ (여기서 $A$는 무해한 활성화 (harmless activations), $C$는 유해한 활성화 (harmful activations)이며 둘 다 $R$에 대해 직교화 (orthagonalized)됨). 따라서 이 편집은 무해한 특정 성분 (harmless-specific component)은 유지하고 거부와 공유되는 성분은 제거하여, 무해한 동작에 대한 변화 (KL)는 작게 유지하면서 거부를 낮춥니다. 이는 평균을 보존하는 사선 ablation (mean-preserving oblique ablation)이 불충분하게 ablation을 수행하는 residual/embedding scaling multiplier가 있는 아키텍처 (예: Granite)에서도 유효합니다.

granite-3.3-8b에서 테스트했을 때 매우 유망한 결과를 얻었습니다:

지표 (Metric)	Base	Apostate
거부율 (Refusal rate)	96.0%	5.0%
준수율 (Comply rate)	-	95.0%
무해 KL (Harmless KL, nats)	0	0.081

(이렇게 격식 있는 게시물을 올려 죄송합니다. 수학을 포함한 쉬운 설명에는 서툴러서요)

링크:
Apostate
게시물에 표시된 모델
Reddit이 LaTeX를 지원하면 좋겠네요

submitted by /u/AccountAntique9327
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

새로운 ablation 연산자 (apostate)

요약

핵심 포인트

댓글