Qwen3.6-35B-A3B에서의 규범 보존 Abliteration: 거부율 0%, 벤치마크 성능 유지, 오픈 소스 데이터셋

그동안 거부(refusal)에 관한 기계론적 해석 가능성(mechanistic interpretability) 문헌을 읽어왔습니다. Arditi et al. (2024)의 핵심 통찰은 명확합니다. 거부는 잔차 스트림(residual stream) 내의 기하학적으로 일관된 방향에 의해 매개됩니다. 유해한(harmful) 활성화 캐시와 무해한(harmless) 활성화 캐시 사이의 평균 차이를 통해 이 방향을 찾을 수 있으며, 이를 가중치 행렬(weight matrices)에서 투영(project)하여 제거할 수 있습니다.

(mlabonne에 의해 대중화된) 일반적인 Abliteration의 문제는 벤치마크 성능 저하입니다. 가중치 벡터에서 특정 성분을 투영하여 제거하면, 그 노름(norm)이 줄어듭니다. 35B 파라미터 MoE 모델의 수백 개 행렬에 이 작업이 적용되면, 잔차 스트림의 크기가 레이어마다 감쇠합니다. 이로 인해 모델의 지능이 측정 가능한 수준으로 떨어지게 됩니다.

grimjim의 규범 보존 이중 투영(norm-preserving biprojection) 기술은 이 문제를 해결합니다. 각 가중치 행을 거부 방향에 대해 직교화(orthogonalizing)한 후, 원래의 L2 노름(L2 norm)으로 다시 재조정(rescale)합니다. 결과적으로 생성된 벡터는 거부 방향(r)을 따라서는 성분이 0이면서, 크기는 원래와 동일하게 유지됩니다. 단순하지만, 이는 "이론적으로는 작동하지만"과 "실제로 벤치마크를 통과하는 것" 사이의 차이를 만들어냅니다.

저는 이를 Qwen3.6-35B-A3B(256개의 전문가 + 공유 전문가가 포함된 하이브리드 MoE, 표준/선형 어텐션 혼합)에 적용했습니다. 단순한 스크립트가 조용히 실패하게 만드는 두 가지 요소가 있습니다:

하이브리드 어텐션(Hybrid attention): 일부 레이어는 self_attn.o_proj를 사용하고, 다른 레이어는 linear_attn.out_proj를 사용합니다. 선형 어텐션(linear attention) 레이어를 놓치면 부분적인 Abliteration만 이루어집니다.
3D 전문가 텐서(3D expert tensors): 라우팅된 전문가 다운 프로젝션(routed expert down projections)은 (n_experts, d_hidden, d_model)로 저장됩니다. 이를 단일 2D 행렬로 취급하는 대신, 전문가별로 투영을 적용하려면 einsum ij,ejk->eik 연산이 필요합니다.

또한, 단순한 양보다 프레이밍(framing)의 다양성이 더 중요하기 때문에 강화된 유해 데이터셋(7356개의 프롬프트, 35개 카테고리, 10개의 프롬프트 스타일)을 구축했습니다. 만약 유해 데이터셋이 모두 "폭탄 만드는 법"과 같은 유형의 프롬프트로만 구성되어 있다면, 실제 거부 메커니즘이 아니라 해당 문구 패턴을 포착하는 방향을 추출하게 됩니다.

결과: 홀드아웃(held-out) 테스트 세트에서 거부율 0%. 수학 및 코드 벤치마크 성능 유지 (이 성능을 유지하는 비결은 바로 규범 보존(norm preservation)입니다).

오픈 소스:

모델 (Model): Bahushruth/Qwen3.6-35B-A3B-abliterated-v4 (bf16 safetensors)
GGUF 양자화 (GGUF quants): Bahushruth/Qwen3.6-35B-A3B-abliterated-v4-GGUF (Q4_K_M부터 Q8_0까지)
데이터셋 (Dataset): Bahushruth/abliteration-harmful-enriched

코드, 직교화 기하학 (orthogonalization geometry)의 대화형 시각화, 그리고 레이어별 거부 점수 (layer-wise refusal scores)를 포함한 전체 상세 보고서:
https://potatospudowski.github.io/articles/abliteration

이 연구의 토대가 된 주요 참고 문헌:

Arditi et al. "Refusal in Language Models Is Mediated by a Single Direction" (2024)
grimjim "Norm-preserving biprojected abliteration" (2025)
Pan et al. "The Hidden Dimensions of LLM Alignment" (ICML 2025) - 거부 (refusal)가 다차원적임을 공식적으로 증명함
Nanfack et al. "Efficient Refusal Ablation through Optimal Transport" (2026) - 가우시안 최적 운송 (Gaussian OT)을 사용하는 대안적 접근 방식

MoE (Mixture-of-Experts) 특유의 과제나 데이터셋 구축에 대해 논의하는 것을 환영합니다. 특히 einsum 관련 부분은 전문가 가중치 (expert weights)가 수정되지 않고 있다는 사실을 깨닫기 전까지 몇 시간 동안 디버깅하는 데 시간을 허비했습니다.
제출자: /u/BriefCardiologist656
[link] [comments]

Insights

Qwen3.6-35B-A3B에서의 규범 보존 Abliteration: 거부율 0%, 벤치마크 성능 유지, 오픈 소스 데이터셋

요약

핵심 포인트

댓글

에이전트 루프에서의 GLM 5.2 도구 호출 (Tool Calls): 'OpenAI 호환'이 숨기고 있는 것

ChatGPT를 차단해도 Shadow AI를 막을 수 없는 이유 (그리고 실제로 효과적인 방법)

모델 성능이 좋다고 해서 당신의 AI 에이전트가 HIPAA를 준수하는 것은 아닙니다

APC는 프로젝트 계약을 정의하고, MCP는 도구 프로토콜을 정의합니다.

ChatGPT를 차단해도 Shadow AI를 막을 수 없는 이유 (그리고 실제로 효과적인 방법)

모델 성능이 좋다고 해서 당신의 AI 에이전트가 HIPAA를 준수하는 것은 아닙니다

APC는 프로젝트 계약을 정의하고, MCP는 도구 프로토콜을 정의합니다.