MTP가 적용된 Gemma4-26B-A4B 및 31B-QAT Uncensored Balanced 모델 출시 (속도 35% 및 53% 향상)!

요약

MTP(Multi-Token Prediction) 기술이 적용된 Gemma4-26B-A4B 및 31B-QAT Uncensored Balanced 모델이 출시되었습니다. 이 모델들은 추측적 디코딩을 통해 속도를 최대 53% 향상시켰으며, 검열을 완화하여 창의적 글쓰기와 RP에 최적화되었습니다.

핵심 포인트

MTP 적용으로 26B 모델 35%, 31B 모델 53% 속도 향상
QAT(양자화 인식 학습)를 통해 Q4_K_M 양자화에서 최적의 품질 제공
검열을 최소화한 Uncensored Balanced 버전으로 창의적 작업에 적합
llama.cpp를 통한 추측적 디코딩 지원 및 긴 문맥 일관성 유지

먼저, HF(Hugging Face) 다운로드 수가 거의 2,000만 회에 도달했다는 소식을 전하게 되어 매우 기쁩니다! (중복/양자화/파인튜닝 등을 제외하고 제 개인 계정으로만 집계한 수치입니다) 또한 Discord 멤버도 거의 5,000명에 육박했습니다!

약속드린 대로 이번에는 두 가지 릴리스를 선보입니다. 더 큰 규모의 Gemma 4 QAT 모델이며, 둘 다 Balanced 버전이고 MTP가 적용되었습니다:
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-QAT-Uncensored-HauhauCS-Balanced-MTP
https://huggingface.co/HauhauCS/Gemma4-31B-QAT-Uncensored-HauhauCS-Balanced-MTP

GenRM을 다시 한번 격파했습니다 — 두 모델 모두에서요! 거부 사례(refusals*) 0/465건.

Balanced = 매우 민감한(edgiest) 주제에 대해 전체 답변을 제공하기 전, 가벼운 추론 서문(reasoning preamble)을 작성합니다. 성격 변화나 개조 등은 전혀 없습니다. 이것들은 오리지널 Gemma4-26B-A4B-QAT 및 Gemma4-31B-QAT이며, 단지 검열되지 않았을(uncensored) 뿐입니다. 이번 릴리스에는 Aggressive 변형 모델은 포함되지 않았습니다.

제 Balanced 릴리스의 경우 언제나 그렇듯, 몇몇 극단적인 사례의 프롬프트는 첫 시도에서 회피할 수 있으나 다시 질문하면 답변을 이어갑니다 (극단적이고 비-RP(Roleplay) 시나리오의 경우). 만약 Balanced 모델이 통과하지 못하는 사례를 발견하신다면, 언제든 Discord에 참여하여 프롬프트를 알려주세요. 향후 릴리스에서 작업할 수 있도록 하겠습니다.

사용자의 99% 이상이 만족할 것이기에 이 모델들을 기본 권장 모델로 제안합니다. 창의적 글쓰기, RP, 감성 지능(emotional intelligence)에 가장 적합합니다. 보통은 "에이전트 기반 코딩/도구 사용(agentic coding/tool use)"도 언급하겠지만, 저의 심층 테스트 결과 해당 분야에서는 Qwen3.6이 순수하게 더 우수했습니다.

저의 자체 테스트 결과: 루핑(looping)이 없으며, 재실행 시에도 샘플링(sampling)이 안정적으로 유지되고, 긴 문맥 일관성(long-context coherence)이 유지됩니다.

새로운 기능 — 두 모델 모두에 MTP 적용 (추측적 디코딩(speculative decoding)을 위한 multi-token-prediction 초안 헤드): 26B-A4B에서는 약 35%, 31B에서는 약 53% 더 빠르며, 출력은 동일합니다 (모델이 모든 초안 토큰을 검증하므로 순수하게 속도만 향상되며 품질 저하는 전혀 없습니다). llama.cpp 사용 시: -md mtp-gemma-4-26B-A4B-it.gguf --spec-type draft-mtp (31B의 경우 파일명을 변경하세요). (MTP 초안은 Unsloth 팀의 도움을 받았습니다 — 감사합니다!) 주의사항: 저는 llama.cpp를 통해서만 테스트했습니다.

생각하기(thinking) 기능을 비활성화하려면: jinja 템플릿을 편집하거나 chat-template kwarg로 {"enable_thinking": false}를 전달하세요.

포함된 내용 (각 릴리스별):

Q4_K_M (텍스트)
mmproj (시각 지원 (vision support))
MTP 초안 헤드 (draft head, 추측적 디코딩 (speculative decoding))
왜 Q4_K_M만 포함되었나요? Gemma 4는 약 4-bit를 위해 양자화 인식 학습 (quantization-aware-trained, QAT)되었으므로, Q4_K_M이 품질의 최적 지점 (sweet spot)입니다. QAT 모델에서는 더 높은 정밀도의 양자화 (quants)가 더 나은 성능을 내는 것이 아니라 단순히 크기만 더 커질 뿐입니다.
26B-A4B vs 31B — 어떤 것을 선택해야 할까요?

모델 | 26B-A4B | 31B

유형 | MoE — 128명의 전문가, 8명 활성화 (~토큰당 약 4B 활성화) | Dense (밀집)
레이어 수 | 30 | 60
컨텍스트 (Context) | 262K | 262k
시각 (Vision) | 예 (mmproj) | 예 (mmproj)
MTP 속도 향상 | ~35% | ~53%
Q4_K_M 크기 | 16.8 GB | 18.7GB

요약: 26B-A4B는 가볍고 빠른 모델입니다. 토큰당 약 4B의 파라미터 (params)만 활성화되므로 사양이 낮은 하드웨어에서도 매우 빠르게 작동합니다. 31B는 Dense 모델이며, VRAM 용량이 충분하다면 두 모델 중 가장 뛰어난 성능을 발휘합니다.
샘플링 파라미터 (Sampling params) (특히 이 릴리스들을 위해 제작되었으므로, 반드시 다음을 사용하세요):
temp=0.6, top_k=64, top_p=0.9, min_p=0.05, repeat_penalty=1.1
참고 사항:

llama.cpp 사용 시 --jinja 플래그를 사용하세요.
시각 (vision) 기능을 위해 프롬프트에서 이미지(images)를 텍스트보다 앞에 배치하세요.
Multi-GPU + LM Studio: Gemma 4는 LM Studio의 텐서 분할 (tensor-split) 모드에서 충돌이 발생할 수 있습니다. 단일 GPU (또는 레이어 분할 (layer-split))를 사용하세요.
나의 모든 모델: HuggingFace — HauhauCS
Discord 링크는 HF 저장소에 있습니다 — 업데이트, 로드맵, 프로젝트 확인 또는 학습을 위해 활용하세요.
제출자: /u/hauhau901 / 커뮤니티: r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

MTP가 적용된 Gemma4-26B-A4B 및 31B-QAT Uncensored Balanced 모델 출시 (속도 35% 및 53% 향상)!

요약

핵심 포인트

댓글