본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 01. 19:04

우리는 AI에게 거절하는 법을 가르치는 데 3년을 보냈습니다.

요약

Heretic 프로젝트는 기존 오픈 소스 LLM에서 거절 행동을 식별하고 제거하는 자동화된 프로세스를 공개했습니다. 재훈련이나 미세 조정 없이 모델의 특정 부분을 편집하여 검열되지 않은 모델 변형을 생성할 수 있음을 보여줍니다.

핵심 포인트

  • 재훈련이나 미세 조정 없이 거절 행동 제거 가능
  • 기존 LLM의 행동이 편집 가능하다는 점을 시사
  • 수천 개의 검열되지 않은 모델 변형 생성
  • AGPL-3.0 라이선스의 오픈 소스 프로젝트

우리는 AI에게 거절하는 법을 가르치는 데 3년을 보냈습니다.

누군가 방금 그것을 되돌리는 방법을 오픈 소스 (Open-source)로 공개했습니다.

Heretic는 제가 올해 본 가장 논란이 되는 AI 프로젝트 중 하나입니다.

새로운 모델을 훈련시키는 대신...

기존의 오픈 소스 LLM (Large Language Models)에서 거절 행동을 자동으로 식별하고 제거합니다.

재훈련 (Retraining) 없음.
비싼 미세 조정 (Fine-tuning) 없음.

다른 모든 것을 보존하려고 노력하면서 거절을 담당하는 모델의 부분을 검색하는 자동화된 프로세스일 뿐입니다.

그 결과는?

이를 사용하여 이미 수천 개의 검열되지 않은 모델 변형 (Model variants)이 생성되었습니다.

매혹적인 점은 도구 그 자체가 아닙니다.

그것이 드러내는 바입니다:

AI 행동은 대부분의 사람들이 생각했던 것보다 훨씬 더 편집 가능할 수도 있다는 것입니다.

22.8k+ 별 (Stars).
AGPL-3.0 오픈 소스 (Open Source).

링크는 댓글에 있습니다 👇
[IMG:https://pbs.twimg.com/media/HJtLc9IawAArJTC.jpg]

AI 자동 생성 콘텐츠

본 콘텐츠는 X @nainsidwiv50980 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0