
우리는 AI에게 거절하는 법을 가르치는 데 3년을 보냈습니다.
요약
Heretic 프로젝트는 기존 오픈 소스 LLM에서 거절 행동을 식별하고 제거하는 자동화된 프로세스를 공개했습니다. 재훈련이나 미세 조정 없이 모델의 특정 부분을 편집하여 검열되지 않은 모델 변형을 생성할 수 있음을 보여줍니다.
핵심 포인트
- 재훈련이나 미세 조정 없이 거절 행동 제거 가능
- 기존 LLM의 행동이 편집 가능하다는 점을 시사
- 수천 개의 검열되지 않은 모델 변형 생성
- AGPL-3.0 라이선스의 오픈 소스 프로젝트
우리는 AI에게 거절하는 법을 가르치는 데 3년을 보냈습니다.
누군가 방금 그것을 되돌리는 방법을 오픈 소스 (Open-source)로 공개했습니다.
Heretic는 제가 올해 본 가장 논란이 되는 AI 프로젝트 중 하나입니다.
새로운 모델을 훈련시키는 대신...
기존의 오픈 소스 LLM (Large Language Models)에서 거절 행동을 자동으로 식별하고 제거합니다.
재훈련 (Retraining) 없음.
비싼 미세 조정 (Fine-tuning) 없음.
다른 모든 것을 보존하려고 노력하면서 거절을 담당하는 모델의 부분을 검색하는 자동화된 프로세스일 뿐입니다.
그 결과는?
이를 사용하여 이미 수천 개의 검열되지 않은 모델 변형 (Model variants)이 생성되었습니다.
매혹적인 점은 도구 그 자체가 아닙니다.
그것이 드러내는 바입니다:
AI 행동은 대부분의 사람들이 생각했던 것보다 훨씬 더 편집 가능할 수도 있다는 것입니다.
22.8k+ 별 (Stars).
AGPL-3.0 오픈 소스 (Open Source).
링크는 댓글에 있습니다 👇
[IMG:https://pbs.twimg.com/media/HJtLc9IawAArJTC.jpg]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @nainsidwiv50980 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기