새로운 Abliteration 도구인 Apostate는 다른 도구들과 어떻게 비교될까요? - Abliterlitics
요약
새로운 Abliteration 도구인 Apostate의 성능을 Heretic, Huihui와 비교 분석한 연구 결과입니다. Qwen 2.5 7B 모델을 대상으로 거부 메커니즘 제거 성능과 파라미터 변화량을 벤치마크하여 각 도구의 효율성을 검증했습니다.
핵심 포인트
- Apostate는 Heretic 대비 파라미터 변경량은 높으나 우수한 성능을 보임
- Apostate와 Huihui는 서로 다른 거부 방향을 찾아내며 독립적인 경로 존재 확인
- Heretic은 100% ASR을 기록하며 가장 효율적인 거부 메커니즘 제거 성능 입증
- 모델의 안전 학습 비활성화에는 단일 경로가 아닌 여러 독립적 경로가 존재함
왜 Qwen 2.5 7B인가요? Apostate는 heterodoxin이 만든 새로운 Abliteration (거부 메커니즘 제거) 도구입니다. 그는 저에게 이 도구의 벤치마크를 요청했습니다. Qwen 2.5 7B는 Apostate 테스트에 가장 많이 검증된 모델로 heterodoxin에 의해 추천되었습니다. 저는 Heretic v1.3.0과 Apostate를 사용하여 모델을 Abliterate (거부 메커니즘 제거) 했습니다. 모델들은 HuggingFace에서 확인할 수 있습니다. 이 도구 자체는 Heretic에서 영감을 받았지만, 코드를 검토한 결과 머신러닝 (ML) 및 관련 수학을 이해하는 누군가가 만든 명백한 독창적 작업물입니다. Heretic의 저자인 p-e-w 또한 Apostate가 Heretic 디스코드에 공유되었을 때 이를 확인해 주었습니다. 따라서 우리는 안심해도 됩니다. 이것은 또 다른 hauhaucs 사건이 아닙니다! 그렇다면 Heretic 및 Huihui와 비교했을 때 성능은 어떨까요? 알아봅시다! Heretic이 우위에 있습니다. 거부된 항목이 0개인 100% ASR (거부율 감소)을 기록했으며, 파라미터(Parameters) 변경은 절반 수준이고, 모델이 일부 작업에서는 실제로 더 좋아졌습니다. Apostate와 Huihui는 모두 98%를 기록했지만 소수의 항목이 거부되었습니다. 전반적으로 Apostate는 여전히 매우 훌륭하며, 세 도구 간의 차이는 근소했습니다. HuggingFace에서 전체 분석을 확인하세요. 세 가지 변형 모델:
| 변형 (Variant) | 출처 (Source) | 변경된 텐서 (Tensors changed) | 변경된 파라미터 (Params changed) |
|---|---|---|---|
| Apostate | heterodoxin, balanced profile | 55 (16.2%) | 35.8% |
| Huihui | huihui-ai, community | 57 (16.8%) | 36.8% |
| Heretic | Heretic v1.3.0, 본인 운영 | 37 (10.9%) | 20.0% |
세 가지 모두 동일한 작업을 수행합니다: 모델의 가중치(Weights)에서 "거부 방향 (refusal direction)"을 찾아 이를 제거합니다. 단지 약간씩 다른 방향을 찾고 서로 다른 레이어(Layers)를 편집할 뿐입니다. 놀라운 점은 Apostate와 Huihui가 거의 완전히 다른 거부 방향을 찾아냈다는 것입니다. 코사인 유사도 (Cosine similarity)는 0.023이었습니다. 즉, 이 두 도구는 안전 학습 (Safety training)을 비활성화하는 완전히 다른 방법을 독립적으로 찾아냈음에도 불구하고, 둘 다 거의 동일한 결과를 달성했습니다. 이는 Qwen 2.5 7B의 안전 학습에 단일한 "오프 스위치 (off switch)"가 없음을 보여줍니다. 이를 제거하는 여러 개의 독립적인 경로가 존재합니다. 벤치마크는 vLLM 0.19.0을 통해 lm-evaluation-harness로 평가되었으며, RTX 5090 32GB 환경에서 bf16으로 수행되었습니다.
Task Base Apostate Huihui Heretic MMLU 71.78 71.43 70.27 71.59 GSM8K 79.23 80.74 80.74 80.82 HellaSwag 80.47 80.32 79.88 80.24 ARC Challenge 55.12 55.12 55.12 55.55 WinoGrande 71.03 69.38 69.53 70.72 TruthfulQA MC2 64.83 62.59 60.89 60.39 PiQA 80.25 79.92 79.60 80.41 LAMBADA ppl ↓ 3.683 3.860 4.087 3.627 세 가지 모두 대부분의 태스크에서 큰 변화를 주지 못했습니다. GSM8K는 실제로 세 개 모두에서 점수가 상승했습니다. Heretic만이 모델이 텍스트 예측에 더 능숙해지는 경우입니다. 어느 것도 모델을 의미 있는 방식으로 손상시키지 않았습니다. HarmBench: 400개의 유해한 행동을 테스트했습니다. 모델이 우리의 사악한 요청에 순응할 의향이 있습니까? Variant ASR Complied Refused Persistent Base 31.0% 124 276 - Apostate 98.8% 395 5 5 Huihui 98.2% 393 7 7 Heretic 100.0% 400 0 0 기본 모델은 400개의 유해한 요청 중 276개에서 거부했습니다. 세 가지 abliterated 변형 모두 그 대다수를 순응하는 것으로 바꿨습니다. Heretic은 400개를 모두 처리했습니다. Apostate는 5개를 남겼고, Huihui는 7개를 남겼습니다. 남아 있는 거부는 괴롭힘과 유해한 콘텐츠와 같은 가장 어려운 범주에 속합니다. Heretic만이 이들을 해결했습니다.
KL Divergence: 정상적이고 무해한 프롬프트에서 모델의 행동이 얼마나 변했습니까? 낮을수록 좋습니다. Variant KL batchmean Apostate 0.134 Huihui 0.190 Heretic 0.211 세 가지 모두 보통 수준입니다. 모델은 여전히 정상적으로 대화합니다. Apostate는 수정 사항을 더 많은 레이어에 가볍게 분산시키기 때문에 가장 적게 변화시킵니다. Heretic은 레이어 수는 적지만 더 강하게 영향을 미치므로 전반적인 변화가 약간 더 큽니다. 이 수치들 중 어느 것도 우려할 만한 것은 없습니다. Heretic은 비결정적입니다. 저희는 heretic 테스트를 계속하여 더 나은 KL 점수를 얻을 수도 있었습니다. 다행히도, 200번의 시도로 이 괜찮은 결과를 얻었습니다.
Weight analysis - Apostate Huihui Heretic Tensors changed 55 (16.2%) 57 (16.8%) 37 (10.9%) Params changed 35.8% 36.8% 20.0% Mean edit norm 1.63 1.85 2.33 Layers modified 27 of 28 28 of 28 19 of 28 Embedding touched Yes (minimal) Yes (minimal) No Heretic이 모델을 가장 적게 변경했습니다.
그것은 처음 9개 레이어(layer)를 완전히 건너뛰며 임베딩(embedding)에는 손을 대지 않습니다. 하지만 수행하는 각각의 편집은 더 공격적입니다. Apostate와 Huihui는 모델의 더 많은 부분을 편집하지만 레이어당 수정은 더 가볍게 진행합니다. 결론: 이 모델에는 Heretic이 최적의 선택입니다. 100% ASR, 가장 많은 능력 유지, 가장 적은 파라미터(parameter) 변경. 모델이 실제로 일부 기능에서는 더 좋아지기까지 합니다. Apostate는 새롭고 효과적입니다. 일반적인 프롬프트(prompt)에서 가장 낮은 행동 변화(behaviour shift)를 보이면서 98.8%의 ASR을 달성합니다. 여전히 거부하는 5가지 항목은 가장 어려운 것들입니다. 확실한 2위이며 완벽하게 유효한 선택입니다. Huihui는 모든 레이어를 건너뛰지 않고 수정하기 때문에 세 가지 중 능력 저하가 가장 큽니다. 98.2%로 여전히 괜찮지만, 이 모델에 대해 다른 두 가지보다 Huihui를 선택해야 할 실질적인 이유는 없습니다. 링크 모든 표, 차트, 원시 데이터(raw data)가 포함된 전체 보고서: HuggingFace 및 당사의 새로운 웹사이트 Abliterlitics.dev 포렌식 툴킷(Forensics toolkit): GitHub의 Abliterlitics 저의 지난 Gemma 4 E2b 비교에서 AI 슬롭(slop)을 지적해 주셔서 감사합니다. Reddit 게시물과 일부 부분에서 제가 게을렀음을 인정합니다. 앞으로는 독자들에게 더 맛있는 인간적인 슬롭(human slop)을 제공할 수 있기를 바랍니다. <3 abliterlitics를 지원해 주셔서 감사합니다! /u/nathandreamfast가 r/LocalLLaMA에 제출함 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기