X요약2026. 06. 01. 19:04

우리는 AI에게 거절하는 법을 가르치는 데 3년을 보냈습니다.

요약

Heretic 프로젝트는 기존 오픈 소스 LLM에서 거절 행동을 식별하고 제거하는 자동화된 프로세스를 공개했습니다. 재훈련이나 미세 조정 없이 모델의 특정 부분을 편집하여 검열되지 않은 모델 변형을 생성할 수 있음을 보여줍니다.

누군가 방금 그것을 되돌리는 방법을 오픈 소스 (Open-source)로 공개했습니다.

Heretic는 제가 올해 본 가장 논란이 되는 AI 프로젝트 중 하나입니다.

새로운 모델을 훈련시키는 대신...

기존의 오픈 소스 LLM (Large Language Models)에서 거절 행동을 자동으로 식별하고 제거합니다.

재훈련 (Retraining) 없음.
비싼 미세 조정 (Fine-tuning) 없음.

다른 모든 것을 보존하려고 노력하면서 거절을 담당하는 모델의 부분을 검색하는 자동화된 프로세스일 뿐입니다.

그 결과는?

이를 사용하여 이미 수천 개의 검열되지 않은 모델 변형 (Model variants)이 생성되었습니다.

매혹적인 점은 도구 그 자체가 아닙니다.

그것이 드러내는 바입니다:

AI 행동은 대부분의 사람들이 생각했던 것보다 훨씬 더 편집 가능할 수도 있다는 것입니다.

22.8k+ 별 (Stars).
AGPL-3.0 오픈 소스 (Open Source).

AI 자동 생성 콘텐츠