r/LocalLLaMA분석2026. 05. 07. 00:01

APEX MoE 양자화 업데이트: Qwen 3.5 게시 후 25 개 이상의 새 모델 + 새로운 I-Nano 등급

요약

본 업데이트는 APEX의 혼합 정밀도(MoE) 양자화 전략을 확장하여 Qwen 3.5를 포함한 30개 이상의 주요 모델에 대한 새로운 버전을 제공하며, 초압축 등급인 I-Nano (IQ2_XXS)를 추가했습니다. 사용자 피드백에 따르면 APEX의 I-Balanced 및 I-Compact는 대용량 MoE 모델에서 긴 문맥 유지력과 코딩 성능을 F16 수준으로 잘 보존하는 것으로 나타났습니다. 새로운 등급은 희소 토큰당 전문가 활성화 덕분에 더욱 작은 크기로 양자화가 가능합니다.

핵심 포인트

APEX는 Qwen 3.5를 포함하여 광범위한 MoE 모델에 대한 양자화 버전을 대폭 확장했습니다 (30개 이상).
새로운 I-Nano 등급(IQ2_XXS)이 도입되어, 기존 I-Mini보다 더 작은 크기로 고성능을 유지할 수 있게 되었습니다.
사용자 보고에 따르면 APEX 양자화는 대용량 MoE 모델에서 긴 문맥 일관성과 코딩 성능을 매우 효과적으로 보존합니다.
I-Nano 등급은 희소 토큰당 전문가 활성화(Sparse Token Expert Activation) 덕분에 더욱 밀집된 공유 전문가를 활용할 수 있습니다.

APEX 의 혼합 정밀도 양자화 전략에 대한 빠른 후속 업데이트입니다. 원래 게시물은 Qwen 3.5 35B-A3B ( https://www.reddit.com/r/LocalLLaMA/comments/1s9vzry/apex_moe_quantized_models_boost_with_33_faster/ )에 대해서만 다루었으며, 이후 컬렉션은 대부분의 주요 계열에서 30 개 이상의 MoE 로 확장되었습니다. 또한 새로운 초압축 등급이 추가되었습니다.

지금까지의 피드백

돌아온 보고서는 예상보다 솔직하게 더 좋습니다!

긴 문맥이 잘 유지됩니다. 사람들은 APEX I-Balanced 와 I-Compact 가 30-50B 계급의 MoE 에서 32k 토큰 이상에서도 여전히 일관성을 잘 유지한다고 보고합니다, 특히 균일한 Q4_K 가 눈에 띄게 열화되는 크기에서조차도. 가설: 희귀/장거리 토큰이 라우팅되고 임베딩되는 공유 전문가와 에지 레이어를 고정 정밀도로 유지하면 공격적인 균일 양자화가 경향하는 긴 문맥 행동을 보존합니다. 다른 모델에 비해 KL99% 값이 가장 좋음을 숫자가 뒷받침합니다.
코딩 양자화는 크기를 뛰어넘는 성능을 발휘합니다. Qwen3.6 35b a3b 사용자는 특히 I-Compact 와 I-Mini 가 실제 코드 작업에서 F16 에 놀라게 가까운 것으로 유지된다고 지적했습니다, 크기 계급이 제안하는 것보다.

모든 보고에 감사드립니다, 이것이 아래 저비트 등급을 더 밀어붙이는 것을 정당화합니다.

첫 번째 게시 후 추가된 모델

가족별로 그룹화되어 있으며, 대부분 I-Mini/I-Compact 에 한 개의 소비자 GPU 에 맞습니다:

Qwen 계통

Qwen 3.5 122B-A10B, Qwen 3.5 397B-A17B, Qwen3.5 Claude-Distilled, Qwen3.5 Fernflower (uncensored), Qwen3.5 TQ
Qwen 3.6 35B-A3B, +heretic, +Claude 4.6 distill, +Claude 4.7 distill
Qwen3-Coder 30B, Qwen3-Coder Next

Frontier-size MoE (양자화하기 위해 Blackwell 임대)

MiniMax-M2.5, MiniMax-M2.7 — 228B / 24B 활성, 지금까지 가장 큰 것
Mistral-Small 4 119B-2603
NVIDIA Nemotron-3-Super 120B-A12B
GLM-4.7 Flash, Step-3.5 Flash
Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni Reasoning — 멀티모달 (시각 + 오디오 + 텍스트)
Holo3 35B-A3B
Huihui3.5 67B-A3B

Hybrid Mamba / SSM MoE

Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni Reasoning — 멀티모달 (시각 + 오디오 + 텍스트)
Holo3 35B-A3B
LFM2 24B-A2B

Gemma 4 계열

gemma-4 26B-A4B-it (오늘 Google 의 업데이트된 채팅 템플릿으로 다시 양자화), +Claude Opus distill, +heretic, Gemopus-4 Preview

커뮤니티 MoE 병합

Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B

새 등급: I-Nano (IQ2_XXS)

중간 레이어 라우팅 전문가를 IQ2_S 에 가까운 2.06 bpw 로 낮춥니다, 에지는 Q3_K, 공유 전문가는 Q5_K. I-Mini 의 약 20% 작으며, 희소 토큰당 전문가 활성화 덕분에 MoE 에만 가능합니다. imatrix 를 필요로 합니다.

예시:

Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (더 적은 절감 — 더 밀집된 공유 전문가)

링크

컬렉션: https://huggingface.co/collections/mudler/apex-quants-gguf
프로젝트 + 논문: https://github.com/mudler/apex-quant

APEX 양자화를 사용하셨고 피드백이 있다면, 댓글 환영합니다!

AI 자동 생성 콘텐츠

원문 바로가기