Gemma4-12B-QAT Uncensored Balanced가 MTP와 함께 출시됨 (~60% 속도 향상)!
요약
Gemma4-12B-QAT Uncensored Balanced 모델이 MTP(Multi-Token Prediction) 기술을 적용하여 출시되었습니다. 이 모델은 비검열화된 답변을 제공하며, MTP를 통해 품질 저하 없이 생성 속도를 약 60% 향상시킨 것이 특징입니다.
핵심 포인트
- MTP 기술 탑재로 추측 디코딩 시 약 60% 속도 향상
- 비검열(Uncensored) 및 Balanced 모드로 민감한 주제 대응력 강화
- 양자화 인식 학습(QAT)을 통해 4-bit 양자화 시 최적의 품질 유지
- 262K의 긴 네이티브 컨텍스트와 멀티모달 기능 지원
우선, HF에서 2천만 다운로드에 거의 도달했음을 발표하게 되어 매우 기쁩니다! (제 계정 기준으로만 계산했으며, 중복/양자화 버전/파인튜닝 등 제외) 그리고 Discord에는 거의 5000명의 멤버가 있습니다!
https://huggingface.co/HauhauCS/Gemma4-12B-QAT-Uncensored-HauhauCS-Balanced
GenRM을 극복했습니다! 거부(refusals)* 465건 중 0건.
Balanced = 가장 민감한 주제에 대해 완전한 답변을 전달하기 전에 가벼운 추론 서문(reasoning preamble)을 제공합니다. 성격 변화/변경 등은 없습니다. 이것은 원래의 Gemma4-12B-QAT이며, 단지 비검열된 버전입니다. 이 릴리스에는 공격적인 변형(Aggressive variant)이 필요하지 않습니다.
항상 그랬듯이, 저의 Balanced 릴리스에서는 소수의 예외적 프롬프트가 첫 시도에서 회피할 수 있지만, 재요청 시(극단적이지 않은 비역할극 시나리오)는 따라옵니다. 만약 어떤 Balance 버전으로도 통과하지 못하는 것을 발견하면, Discord에 참여하여 저에게 해당 프롬프트를 알려주시면 다음 릴리스에서 작업하겠습니다.
이것은 사용자 99%+가 만족할 추천 기본값입니다. 창의적 글쓰기, RP(역할극), 감성 지능에 가장 좋습니다. 보통은 '에이전트 코딩/도구 사용'이라고 말하겠지만, 제가 심층적으로 테스트한 결과 Qwen3.6이 이 부분에서 전반적으로 우수했습니다.
제 자체 테스트를 기반으로: 루핑(looping) 없음, 샘플링이 재실행 시 안정적 유지됨, 긴 컨텍스트 일관성 유지됨.
새로 추가된 기능 — MTP로 ~60% 더 빠름: 이 릴리스는 추측 디코딩(speculative decoding)을 위한 다중 토큰 예측(multi-token-prediction, MTP) 드래프트 헤드를 탑재합니다. 동일한 출력으로 약 60% 빠른 생성이 가능합니다 (모델이 작성된 모든 토큰을 확인하기 때문에 순수한 속도 향상이며 품질 손실은 없습니다). llama.cpp에서: -md mtp-gemma-4-12B-it.gguf --spec-type draft-mtp. (MTP 드래프트는 Unsloth 팀의 배려입니다 — 감사합니다!) 주의사항: 저는 이것을 llama.cpp를 통해서만 테스트했습니다.
사고 과정(thinking) 비활성화 방법: jinja 템플릿을 수정하거나 채팅 템플릿 키워드 인자(chat-template kwarg)로 {
Gemma 4는 약 4-bit를 위해 양자화 인식 학습 (Quantization-Aware Training, QAT)되었으므로, Q4_K_M이 품질의 최적 지점 (sweet spot)입니다. QAT 모델에서는 더 높은 정밀도의 양자화 (quant)를 사용하더라도 모델 크기만 커질 뿐 성능이 더 좋아지지는 않습니다.
주요 사양:
- 12B Dense (MoE 아님)
- 48 레이어, 하이브리드 어텐션 (hybrid attention): 5× 슬라이딩 윈도우 (sliding-window, 1024) + 1× 전체 글로벌 (full global) 반복
- Hidden 3840, head_dim 256 SWA / 512 full, 16 query heads, 8 KV heads (sliding) / 1 KV head (global)
- 262K 네이티브 컨텍스트 (native context)
- p-RoPE
- 멀티모달 (Multimodal) (mmproj를 통한 텍스트 + 이미지)
샘플링 파라미터 (Sampling params) (특히 이번 릴리스를 위해 제작되었으므로, 반드시 이를 사용하세요):
temp=0.6, top_k=64, top_p=0.9, min_p=0.05, repeat_penalty=1.1
참고 사항:
- llama.cpp 사용 시 --jinja 플래그를 사용하세요.
- 비전 (vision) 기능을 위해 프롬프트에서 이미지 를 텍스트 앞에 배치하세요.
- Multi-GPU + LM Studio: Gemma 4는 LM Studio의 텐서 분할 (tensor-split) 모드에서 충돌이 발생할 수 있습니다 — 단일 GPU (또는 레이어 분할, layer-split)를 사용하세요.
저의 모든 모델: HuggingFace — HauhauCS
Discord 링크는 HF 리포지토리에 있습니다 — 업데이트, 로드맵, 프로젝트, 학습 또는 단순 채팅을 위해 방문하세요.
언제나 그렇듯, 모두가 이번 릴리스를 즐기시길 바랍니다!
- = 자동 및 수동 거부 벤치마크/프롬프트로 테스트한 결과, 발견된 거부 사례가 없었습니다. Discord 피드백을 바탕으로 릴리스를 추가 업데이트할 수 있습니다.
제출자: /u/hauhau901
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기