본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 07. 00:01

APEX MoE 양자화 업데이트: Qwen 3.5 게시 후 25 개 이상의 새 모델 + 새로운 I-Nano 등급

요약

본 업데이트는 APEX의 혼합 정밀도(MoE) 양자화 전략을 확장하여 Qwen 3.5를 포함한 30개 이상의 주요 모델에 대한 새로운 버전을 제공하며, 초압축 등급인 I-Nano (IQ2_XXS)를 추가했습니다. 사용자 피드백에 따르면 APEX의 I-Balanced 및 I-Compact는 대용량 MoE 모델에서 긴 문맥 유지력과 코딩 성능을 F16 수준으로 잘 보존하는 것으로 나타났습니다. 새로운 등급은 희소 토큰당 전문가 활성화 덕분에 더욱 작은 크기로 양자화가 가능합니다.

핵심 포인트

  • APEX는 Qwen 3.5를 포함하여 광범위한 MoE 모델에 대한 양자화 버전을 대폭 확장했습니다 (30개 이상).
  • 새로운 I-Nano 등급(IQ2_XXS)이 도입되어, 기존 I-Mini보다 더 작은 크기로 고성능을 유지할 수 있게 되었습니다.
  • 사용자 보고에 따르면 APEX 양자화는 대용량 MoE 모델에서 긴 문맥 일관성과 코딩 성능을 매우 효과적으로 보존합니다.
  • I-Nano 등급은 희소 토큰당 전문가 활성화(Sparse Token Expert Activation) 덕분에 더욱 밀집된 공유 전문가를 활용할 수 있습니다.

APEX 의 혼합 정밀도 양자화 전략에 대한 빠른 후속 업데이트입니다. 원래 게시물은 Qwen 3.5 35B-A3B ( https://www.reddit.com/r/LocalLLaMA/comments/1s9vzry/apex_moe_quantized_models_boost_with_33_faster/ )에 대해서만 다루었으며, 이후 컬렉션은 대부분의 주요 계열에서 30 개 이상의 MoE 로 확장되었습니다. 또한 새로운 초압축 등급이 추가되었습니다.

지금까지의 피드백

돌아온 보고서는 예상보다 솔직하게 더 좋습니다!

  • 긴 문맥이 잘 유지됩니다. 사람들은 APEX I-Balanced 와 I-Compact 가 30-50B 계급의 MoE 에서 32k 토큰 이상에서도 여전히 일관성을 잘 유지한다고 보고합니다, 특히 균일한 Q4_K 가 눈에 띄게 열화되는 크기에서조차도. 가설: 희귀/장거리 토큰이 라우팅되고 임베딩되는 공유 전문가와 에지 레이어를 고정 정밀도로 유지하면 공격적인 균일 양자화가 경향하는 긴 문맥 행동을 보존합니다. 다른 모델에 비해 KL99% 값이 가장 좋음을 숫자가 뒷받침합니다.
  • 코딩 양자화는 크기를 뛰어넘는 성능을 발휘합니다. Qwen3.6 35b a3b 사용자는 특히 I-Compact 와 I-Mini 가 실제 코드 작업에서 F16 에 놀라게 가까운 것으로 유지된다고 지적했습니다, 크기 계급이 제안하는 것보다.

모든 보고에 감사드립니다, 이것이 아래 저비트 등급을 더 밀어붙이는 것을 정당화합니다.

첫 번째 게시 후 추가된 모델

가족별로 그룹화되어 있으며, 대부분 I-Mini/I-Compact 에 한 개의 소비자 GPU 에 맞습니다:

Qwen 계통

  • Qwen 3.5 122B-A10B, Qwen 3.5 397B-A17B, Qwen3.5 Claude-Distilled, Qwen3.5 Fernflower (uncensored), Qwen3.5 TQ
  • Qwen 3.6 35B-A3B, +heretic, +Claude 4.6 distill, +Claude 4.7 distill
  • Qwen3-Coder 30B, Qwen3-Coder Next

Frontier-size MoE (양자화하기 위해 Blackwell 임대)

  • MiniMax-M2.5, MiniMax-M2.7 — 228B / 24B 활성, 지금까지 가장 큰 것
  • Mistral-Small 4 119B-2603
  • NVIDIA Nemotron-3-Super 120B-A12B
  • GLM-4.7 Flash, Step-3.5 Flash
  • Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni Reasoning — 멀티모달 (시각 + 오디오 + 텍스트)
  • Holo3 35B-A3B
  • Huihui3.5 67B-A3B

Hybrid Mamba / SSM MoE

  • Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni Reasoning — 멀티모달 (시각 + 오디오 + 텍스트)
  • Holo3 35B-A3B
  • LFM2 24B-A2B

Gemma 4 계열

  • gemma-4 26B-A4B-it (오늘 Google 의 업데이트된 채팅 템플릿으로 다시 양자화), +Claude Opus distill, +heretic, Gemopus-4 Preview

커뮤니티 MoE 병합

  • Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B

새 등급: I-Nano (IQ2_XXS)

중간 레이어 라우팅 전문가를 IQ2_S 에 가까운 2.06 bpw 로 낮춥니다, 에지는 Q3_K, 공유 전문가는 Q5_K. I-Mini 의 약 20% 작으며, 희소 토큰당 전문가 활성화 덕분에 MoE 에만 가능합니다. imatrix 를 필요로 합니다.

예시:

  • Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
  • Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (더 적은 절감 — 더 밀집된 공유 전문가)

링크

APEX 양자화를 사용하셨고 피드백이 있다면, 댓글 환영합니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0