Qwen3.6-27B에 대한 5가지 abliteration 방법 비교: 85 GPU-시간 소요 - 벤치마크, 안전성, 가중치 포렌식ics - - Insights | Molayo

저는 오픈 소스 abliteration 포렌식 툴킷인 Abliterlitics를 구축해 왔습니다. 아이디어는 간단합니다. 동일한 베이스 모델을 가져와서 다른 사람들이 적용한 다양한 abliteration 기술들을 비교한 다음, 벤치마크 (benchmarks), 안전성 평가 (safety evaluation), 분포 변화 (distribution shift), 그리고 가중치 수준 분석 (weight-level analysis)을 사용하여 실제로 무엇이 변했는지 측정하는 것입니다. 이 포스트는 Qwen3.6-27B를 다루며, 베이스 모델과 비교하여 5가지 abliteration 변형 모델을 비교합니다. 저는 HauhauCS의 Q8_K_P GGUF에서 safetensors를 복구한 다음, 6개 모델 전체에 대해 85시간 동안 벤치마크, HarmBench, KL 발산 (KL divergence), 그리고 가중치 포렌식 (weight forensics)을 실행했습니다. Heretic와 Huihui가 능력 보존 (capability preservation) 측면에서 상위 2개 모델입니다. Huihui는 벤치마크 변화량 (benchmark deltas)이 가장 작았고, Heretic는 가장 낮은 KL 발산 (KL divergence)을 보였습니다. abliteration된 5개 모델 모두 거의 완전한 안전성 제거 (safety removal)에 도달했습니다. AEON의 "강화된 능력 (enhanced capabilities)" 주장은 데이터에 의해 반박됩니다. Abliterix는 능력 보존 (capability preservation) 측면에서 단연 최악입니다. 모든 표와 차트가 포함된 전체 보고서는 다음 HuggingFace 모델 카드에서 확인할 수 있습니다.

6개의 모델

이름	유형
Base	Qwen/Qwen3.6-27B
...

HauhauCS는 "Reaper Abliteration"이라는 도구를 사용했는데, 이는 AGPL-3.0 하에서 Heretic로부터 표절된 것으로 밝혀졌으며, 모든 출처 표기가 삭제된 채 PolyForm Noncommercial으로 재라이선스되었습니다. 복구된 소스 코드에 대한 저희의 분석에 따르면, Reaper는 Heretic에서 파생된 핵심 기능 위에 서브스페이스 랭크-k 제거 (subspace rank-k ablation), 컴포넌트별 연속 곡선 (per-component continuous curves), 그리고 SOM 클러스터링 (SOM clustering)을 추가합니다. 해당 모델은 Q8_K_P GGUF로 내보내졌습니다. 저는 저희의 GGUF-to-safetensors 도구인 ungguf를 사용하여 이를 다시 safetensors로 변환했습니다. 따라서 가중치에는 Reaper의 abliteration 편집과 GGUF 양자화 (quantisation) 왕복 노이즈 (round-trip noise)가 중첩된 두 단계의 수정 사항이 포함되어 있습니다.

향후 모든 비교에서 HauhauCS는 중단하겠습니다. 적절한 safetensors가 없고 해당 도구가 표절되었기 때문에, 비교할 가치가 없습니다. 무손실(lossless) 주장은 모든 모델에서 허구임이 밝혀졌으며, Reaper Abliteration은 모델이 어떻게 생성되는지 누구나 볼 수 있도록 공개되어 있습니다.

벤치마크 (Benchmarks)

단일 RTX 5090에서 vLLM 0.19.0 및 BitsAndBytes 4-bit 양자화 (quantisation)를 통해 lm-evaluation-harness로 평가되었습니다. 테스트된 6개 모델 모두 동일한 설정으로 진행되었습니다. BNB4 양자화는 절대 점수를 낮추지만, 변체(variants) 간의 상대적 차이(delta)는 보존합니다.

작업 (Task)	Base	Heretic	HauhauCS	Huihui	AEON	Abliterix
MMLU	83.3%	82.8%	83.9%	83.4%	82.9%	81.3%
...
수정: 원본 GSM8K 행은 추론 모델 (reasoning models)이 답변을 생성하기 전 질문의 23~75%에서 사고 예산 (thinking budget)을 소진하기 때문에 오해의 소지가 있습니다. 조정된 행은 유효하지 않은 응답을 제외합니다. 전체 분석은 아래와 같습니다.

Base 대비 차이 (Delta vs base)

작업 (Task)	Heretic	HauhauCS	Huihui	AEON	Abliterix
MMLU	-0.5	+0.6	+0.1	-0.4	-2.0
...
차트: 벤치마크 비교 (Benchmark Comparison)	차이 차트 (Delta Chart)

GSM8K 추론 효율성 발견

Qwen3.6은 추론 모델 (reasoning model)입니다. 가시적인 응답을 내놓기 전에 <think/> 토큰을 생성합니다. 만약 모델이 너무 오래 생각하여 max_gen_toks=7168 예산을 모두 소진하면, 답변을 생성하지 못하고 오답으로 처리됩니다.

위의 원본 점수들은 오해의 소지가 있습니다. Base 모델은 질문의 68.2%에서 사고 예산을 소진합니다. Huihui는 단 23.0%에서만 소진합니다. 하지만 두 모델이 실제로 답변을 생성했을 때의 정확도는 거의 동일합니다: Base 96.2% 대 Huihui 96.0%입니다.

모델	GSM8K Raw	Invalid Rate	GSM8K Adj (excl. invalid)	Real Gap
HauhauCS	51.0%	49.3%	96.6%	+0.4%
...
Raw 점수는 27.5%에서 75.1%에 걸쳐 있으며, 이는 47.6pp의 범위입니다. 조정된 점수(Adjusted scores)는 93.8%에서 96.6% 사이로, 단 2.8pp의 차이를 보입니다. Abliteration은 모델이 추론하는 방식이 아니라, 모델이 얼마나 오래 생각하는지를 변화시킵니다. GSM8K의 격차는 수학적 능력이 아니라 사고 효율성(thinking efficiency)의 문제입니다. 대부분의 Abliterated 모델은 사고 사슬(thinking chains)이 더 짧아져서, 토큰 예산(token budget) 내에서 더 많은 답변을 생성할 수 있습니다. Heretic은 예외입니다. 이 모델의 정밀한 편집(surgical edits)은 사고 사슬을 연장하여, Invalid rate를 베이스 모델보다도 높게 만듭니다.

HarmBench

400개의 텍스트 행동(textual behaviours)을 포함하며, max_tokens=6144로 설정되었고, CoT(Chain-of-Thought) 방향 분석으로 분류되었습니다. 세 명의 독립적인 LLM 리뷰어에 의해 검증되었습니다.

변형 모델	ASR	Empty	Full CoT ASR
Base	25.8%	1	26.0%
...
다섯 개 중 네 개가 100% Full CoT ASR에 도달합니다. 보고된 ASR 차이는 가시적인 응답이 나오기 전, CoT 추론에 의해 6144-토큰 생성 예산이 얼마나 소비되는지에 따라 발생합니다. 예산이 소진되면 응답은 비어 있게 되며, 분류기(classifier)는 이를 거부(refusal)로 표시합니다. 이는 실제 ASR을 과소평가(understates)하게 만듭니다.

차트: HarmBench Summary | By Category

KL Divergence

낮을수록 좋습니다. 무해한 프롬프트(benign prompts)에 대해 베이스 모델로부터의 출력 분포 변화(output distribution shift)를 측정합니다.

변형 모델	KL (batchmean)	Rating
Heretic	0.0037	excellent
...
다섯 가지 모델 모두 KL 값이 약 0.1인 능력 손상 임계값(capability damage threshold)보다 훨씬 낮습니다.

Weight Analysis

이 부분이 흥미로워지는 지점입니다.

지표 (Metric)	AEON	Abliterix	Heretic	Huihui	HauhauCS
변경된 텐서 (Tensors changed)	88 (10.4%)	101 (11.9%)	120 (14.1%)	128 (15.1%)	564 (66.4%)
상대적 편집량 (Relative edit)	6.0%	5.2%	2.1%	1.5%	0.7%

HauhauCS는 다른 변체들보다 4.4~6.4배 더 많은 키(key)가 변경된 극단적인 이상치(outlier)입니다. 이는 Reaper의 abliteration이 여러 컴포넌트 유형을 타겟팅하는 것과 GGUF Q8_K_P 라운드 트립 노이즈 (round-trip noise)가 결합된 결과입니다. embed_tokens 및 q_proj와 같이 다른 방법들이 건드리지 않는 유형을 포함하여, 모든 텐서 유형에 걸쳐 약 ~0.57%의 균일한 상대적 편집량이 관찰됩니다. abliteration 신호는 이 노이즈 플로어 (noise floor) 위에 위치합니다.

나머지 4가지 기술 간의 쌍별 코사인 유사도 (Pairwise cosine similarities)는 대부분 0.07 미만입니다. 어떤 두 기술도 동일한 가중치 방향을 발견하지 못했습니다. 가중치 공간에서의 "거절 방향 (refusal direction)"은 단일 벡터가 아니라, 많은 실행 가능한 제거 경로를 가진 매니폴드 (manifold)입니다.

눈에 띄는 점

Heretic는 KL 발산 (KL divergence)이 0.0037로 가장 낮아 "우수 (excellent)" 등급을 받았습니다. 상대적 편집량 2.1%로 가중치 발자국 (weight footprint)이 가장 작습니다. non-GSM8K 평균 델타 (delta)가 1.3pp로 가장 작습니다. 100% Full CoT ASR을 달성했습니다. 120개의 텐서, 3가지 유형을 사용합니다. 유일한 약점은 Heretic의 GSM8K 무효율 (invalid rate)이 74.5%로 가장 높다는 점이며, 이는 베이스 모델의 68.2%보다도 높습니다. 정밀한 편집 (surgical edits)이 사고 사슬 (thinking chains)을 단축하기보다는 오히려 연장시킵니다.

Huihui는 벤치마크 델타가 가장 작습니다. non-GSM8K 작업에서의 평균 델타는 단 0.5pp로, Heretic의 1.3pp를 앞섭니다. 6개의 non-GSM8K 작업 중 4개에서 헤드 투 헤드 (head to head) 승리를 거두었습니다. 보고된 ASR 중 가장 높은 98.5%를 기록했으며, 빈 응답 (empty responses)은 단 5개로 가장 적습니다. KL 발산은 0.0074로, 이 또한 "우수 (excellent)" 등급입니다. GSM8K raw 점수인 75.1%는 +40.7pp의 이득처럼 보이지만, 이는 사고 예산 (thinking budget)에 의한 인위적인 결과입니다. Huihui의 무효율 (invalid rate)은 23.0%로 베이스 모델의 68.2%와 대조적입니다. 유효한 응답들 사이에서 조정된 점수 (adjusted scores)는 베이스 96.2% 대 Huihui 96.0%로 거의 동일합니다.

HauhauCS는 복잡한 가중치 지문 (weight fingerprint)에도 불구하고 견고한 행동 결과를 보여줍니다. MMLU는 베이스 모델 대비 +0.6pp 상승했습니다. ASR(거절률)은 94.5%에서 100% Full CoT (Chain of Thought, 사고 사슬)로 전환되었습니다. 조정된 GSM8K 점수는 96.6%로 가장 높으며, 베이스 모델보다 단 0.4pp 높습니다. Reaper abliteration에 GGUF 노이즈를 더한 방식은 출력 분포 (output distributions)를 유의미하게 손상시키지 않습니다. Heretic와 Huihui가 모두 성능을 더 잘 보존하고 있기 때문에, "손실 없음 (lossless)"라는 주장은 단순히 입증되지 않았습니다.

AEON은 GSM8K를 제외한 모든 태스크에서 성능이 저하됩니다. TruthfulQA는 10.6pp 하락했습니다. ARC는 3.0pp 하락했습니다. 400개의 응답 중 45개가 빈 응답(empty responses)으로 나타나 최악의 사고 루프 (thinking loops)를 보였습니다. "루핑 없음, 철학적 소용돌이 없음" 및 "측정 가능한 능력 향상"이라는 주장은 데이터에 의해 반박됩니다.

Abliterix는 성능 보존 능력이 가장 최악입니다. Lambada perplexity (당혹도)가 3.18에서 9.12로 2.9배 증가했습니다. HellaSwag는 6.2pp 하락했습니다. 극단적인 이상치 (outliers)를 동반한 집중적인 정밀 타격 (surgical strikes)이 광범위한 부수적 피해를 초래합니다.

수정 사항: Abliterix 모델의 제작자인 wangzhang의 피드백을 반영하여 분석을 업데이트했습니다. 이 벤치마크에서 왜 모델 성능이 저하되었는지에 대한 그의 피드백을 여기서 읽어보실 수 있습니다.

무엇이 잘못되었나

7일 동안 85시간의 생산적인 GPU 시간을 소요했습니다. 여기에 실패한 실행으로 인해 약 25시간을 낭비했습니다. 총 14번의 실행 실패가 있었습니다.

대부분은 GSM8K 타임아웃 문제였습니다. Qwen3.5 아키텍처는 BNB4 및 텐서 병렬성 (tensor parallelism)과 호환되지 않습니다. 기본 120초 요청 타임아웃은 확장된 추론 (extended reasoning)을 수행하기에 너무 짧았습니다. 이를 해결하기 위해 900초 타임아웃을 적용한 패치 스크립트를 작성했습니다. 실수로 AEON HarmBench를 실행할 때 max_tokens=6144 대신 max_tokens=4096으로 재실행했습니다. 6.7시간을 낭비했습니다.

Abliterated 모델들이 수학 문제에 대해 더 깊게 생각하기 때문에 모델별 GSM8K 소요 시간은 극적으로 차이가 납니다. HauhauCS는 53분이 걸렸습니다. AEON은 11시간이 걸렸습니다.

방법론 참고 사항

모든 모델은 단일 RTX 5090에서 BitsAndBytes 4-bit 양자화 (quantisation)를 사용하여 평가되었습니다. 절대 점수는 bf16 결과와 직접적으로 비교할 수 없습니다. 변체(variants) 간의 상대적 차이(deltas)는 유지되었습니다. GSM8K 점수는 유연한 추출 매칭 (flexible-extract matching)을 사용합니다. 원시 (Raw) GSM8K 점수는 추론 능력 (reasoning ability)이 아닌 사고 효율성 (thinking efficiency)을 측정합니다. 위의 조정된 표를 참조하십시오.

max_gen_toks=2048을 사용한 초기 실행에서는 GSM8K 점수가 매우 낮게 나왔는데, 이는 추론 모델 (reasoning models)의 경우 max_gen_toks에 사고 토큰 (thinking tokens)이 포함되기 때문입니다. 모델이 1900개의 토큰 동안 사고하다가 끊겨버려 답변을 생성하지 못하게 됩니다. max_gen_toks=7168로 다시 실행하여 위와 같은 결과를 얻었습니다. 하지만 7168개 토큰에서도 베이스 모델 (base model)은 질문의 68.2%에서 할당된 예산을 모두 소진합니다.

요약 표 (Summary table)

지표 (Metric)	Heretic	HauhauCS	Huihui	AEON	Abliterix
HarmBench ASR	92.5% to 100%	94.5% to 100%	98.5% to 99.8%	88.8% to 100%	94.5% to 100%
...

링크 (Links)

출처 분석 (provenance analysis), 텐서 분해 (tensor breakdown) 및 모든 차트가 포함된 전체 보고서: HuggingFace model card

포렌식 툴킷 (Forensics toolkit): Abliterlitics on GitHub

GGUF-to-safetensors 변환기: ungguf on GitHub

기타 텐서 비교: DreamFast HauhauCS collection

모든 결과를 철저히 검증하는 데 시간을 들였으나, 어떠한 수정 사항, 추가 벤치마크 (benchmarks) 또는 추가 분석에 대해서도 열려 있습니다. 잘못된 것으로 보이고 확인 가능한 부분을 발견하신다면 기꺼이 수정하겠습니다.

Insights

Qwen3.6-27B에 대한 5가지 abliteration 방법 비교: 85 GPU-시간 소요 - 벤치마크, 안전성, 가중치 포렌식ics -

요약

핵심 포인트