본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 06. 22:56

Heretic 1.3 출시: 재현 가능한 모델, 통합 벤치마킹 시스템, VRAM 사용량 감소, 더 넓은 모델 지원 등

요약

Heretic의 최신 버전인 1.3이 출시되었으며, 이 업데이트는 언어 모델 검열 제거(uncensoring) 분야에서 중요한 발전을 가져왔습니다. 주요 개선 사항으로는 '재현 가능한 실행' 시스템 도입으로 모델 결과의 투명성과 신뢰성이 크게 향상된 점, MMLU 등 표준 벤치마크를 직접 실행할 수 있는 간편한 통합 벤치마킹 시스템 추가가 있습니다. 또한 VRAM 사용량 최적화와 더 넓은 범위의 최신 LLM 지원을 통해 접근성과 활용도가 높아졌습니다.

핵심 포인트

  • **재현 가능한 실행(Reproducible Execution) 도입:** 모델 결과에 영향을 미치는 모든 환경 변수(PyTorch 버전, GPU, 드라이버 등)를 기록하여 바이트 대비 바이트 동일한 결과를 보장함으로써 투명성을 극대화했습니다.
  • **통합 벤치마킹 시스템 강화:** MMLU, GSM8K 등 표준 LLM 벤치마크를 Heretic 내에서 직접 실행할 수 있게 되어 모델 평가가 훨씬 간편하고 신뢰성 높아졌습니다.
  • **VRAM 사용량 최적화:** 중간 텐서 관리를 개선하여 피크 VRAM 사용량을 현저히 줄였으며, 이를 통해 더 크고 복잡한 모델을 처리할 수 있게 되었습니다.
  • **모델 지원 범위 확대:** Qwen3.5 및 Gemma 4와 같은 최신 세대 LLM 아키텍처를 포함하여 더욱 광범위하고 일반적인 모델 처리가 가능해졌습니다.

동료 Llamas 여러분, 저는 Heretic(https://github.com/p-e-w/heretic) 의 최신 버전인 1.3 가 즉시 이용 가능하다고 기쁘게 고지합니다. Heretic 은 언어 모델의 검열을 제거하는 데 사용되는 주요 소프트웨어입니다.

이것은 긴 여정이며 흥미로운 출시 사이클이었습니다. Heretic 은 이제 GitHub 별 20,000 개와 총 모델 다운로드량 1300 만 개 이상의 인기 있는 오픈 소스 프로젝트가 되었습니다 (특정 "경쟁자"의 모델을 제외하고, 이 경쟁자는 최근 Heretic 의 복제본을 기반으로 한 도용된 포크를 사용했음이 밝혀졌습니다). 모델 검열 제거라는 주제는 폭발적인 인기를 끌고 있으며, 많은 클론과 포크들이 등장했습니다. 일부는 신비주의, 기술 용어, 또는 수만 줄의 LLM 작성의 쓰레기 코드로 자신의 기술을 흐리게 하기도 했습니다.

저는 Heretic 이 정반대의 방향으로 나아가고 있다고 기쁘게 말씀드립니다. 상황을 더 어렵게 만드는 것이 아니라, 새로운 릴리스는 더 쉽고 투명한 것을 제공합니다. Heretic 1.3 의 헤드라인 기능은 재현 가능한 실행입니다. 처음에는 그렇게 보일 수 있지만, 이는 해결하기 훨씬 더 어려운 문제였습니다. 텐서 연산의 결과는 PyTorch 버전, GPU, 드라이버, 가속기 라이브러리, 그리고 Saturn 이 Ascendant 여부에 따라 달라질 수 있기 때문입니다. 재현성을 보장하려면 모든 해당 정보가 수집되고 보존되어야 합니다. 이 거대한 작업은 오래된 기여자 Vinay-Umrethe 가 수행했습니다. 그는 250 개 이상의 코멘트가 교환된 격렬한 다중 주 협업 과정에서 대부분의 코드를 작성했습니다.

결과적으로, Hugging Face 에 탈검열 모델을 게시할 때 이제 Heretic 이 저장소에 reproduce 디렉토리를 생성하는 옵션이 있습니다. 이는 다른 사람이 자신의 모델에 대해 바이트 대비 바이트 동일한 모델을 생성하기 위해 알아야 할 모든 것을 포함합니다 (예시). "내 머신에서 저런 낮은 수치를 얻는 데 어려움이 있다"라는 날이 끝났습니다! 이제 가능합니다! 재현성 시스템은 이미 매우 유용하고 교육적이며, 앞으로 더 ambitious(대담한)하고 흥미로운 것의 골격을 형성할 것입니다. 곧 발표할 예정입니다. 재현성 정보를 게시하는 것은 완전히 선택 사항이며, Heretic 은 항상 이를 수행하기 전에 프롬프트를 표시합니다. 업로드되는 것에 대해 항상 통제권을 가집니다.

더 많은 기능이 있습니다! 탈검열 모델이自己的能力에 심각한 손상을 입었는지 확신할 수 있는지 알기 어렵다는 것을 아시나요? Heretic 은 이제 세계에서 가장 간단한 벤치마킹 시스템을 포함합니다. MMLU, EQ-Bench, GSM8K, HellaSwag 와 같은 표준 벤치마크를 Heretic 에서 직접 실행할 수 있습니다. 모델 을 먼저 내보내거나 어떤 설정과도 만지작거리지 않고 실행할 수 있습니다. 이는 모델을 게시할 가치가 있는지 또는 다른 시험을 볼 것인지 결정하는 것을 훨씬 더 쉽게 만듭니다. 이 시스템은 lm-evaluation-harness 를 기반으로 합니다. LLM 벤치마크를 실행하기 위한 학술적 황금 표준이며, 결과 지표는 온라인에 게시된 숫자와 직접 비교할 수 있습니다.

일반적인 실행 과정에서 Heretic 은 텐서 (tensor) 에 대한 다양한 함수를 계산합니다. 이는 GPU 메모리에서 중간 텐서가 나타날 수 있으며, 이는 상당한 양의 VRAM 을 차지할 수 있습니다. magiccodingman 이 이를 상세히 분석하고 최적화를 구현하여 피크 VRAM 사용량을 현저히 줄여 더 큰 모델을 처리할 수 있게 했습니다.

모델 아키텍처는 계속 진화하고 복잡해지고 있으며, Heretic 도 이에 맞춰 발전하고 있습니다! farolone 와 MoonRide303 이 Heretic 의 레이어 및 모듈 처리 로직을 개선하여 더욱 일반적 (generic) 이 되었고, Qwen3.5 와 Gemma 4 등 최신 세대 모델을 포함한 다양한 모델을 처리할 수 있게 했습니다.

개선 사항과 버그 수정의 전체 목록은 릴리스 노트 (release notes) 를 참고해주세요. 향후 버전에서는 더 흥미로운 기능이 출시될 예정입니다!

감사합니다 :)

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0