Agents-A1 GGUF 양자화 모델 (35B Qwen3.5-MoE 에이전트 모델) — Blackwell용 NVFP4 + 작동 가능한 MTP
요약
35B 파라미터 규모의 Qwen3.5-MoE 기반 에이전트 모델인 Agents-A1의 GGUF 양자화 버전을 소개합니다. Blackwell GPU를 위한 NVFP4 빌드와 투기적 디코딩을 위한 MTP(multi-token prediction) 결합을 통해 성능과 속도를 최적화했습니다.
핵심 포인트
- Qwen3.5-MoE 기반의 35B 에이전트 모델 양자화 버전 배포
- Blackwell GPU 최적화를 위한 NVFP4 빌드 및 MTP 결합 제공
- IQ4_XS 및 Q5_K_M/Q6_K 양자화 방식이 품질과 효율 면에서 최적
- MTP 적용 시 투기적 디코딩을 통해 생성 속도 향상 가능
Repo → huggingface.co/LordNeel/Agents-A1
InternScience/Agents-A1의 GGUF 양자화 (quants) 버전을 제작했습니다. 이 모델은 35B Mixture of Experts (MoE) 에이전트 모델입니다 (Qwen3.5-MoE, 활성 파라미터 ~3B, 256개 전문가 / 8+1 활성, hybrid linear+full attention, 256K 컨텍스트). 이 모델은 장기적 탐색 (long-horizon search), 도구 호출 (tool-calling), 그리고 과학/공학적 에이전트 작업에 최적화되어 구축되었습니다. 베이스 모델 자체의 벤치마크는 ~35B 클래스에서 매우 강력합니다 (제 수치가 아닌 모델 제작사의 수치입니다 — 해당 모델 카드를 참조하세요).
단순한 양자화 배포 이상의 가치를 위해 두 가지를 추가했습니다:
- Blackwell GPU를 위한 NVFP4 빌드
- 실제 투기적 디코딩 (speculative decoding)을 위해 측정된 MTP (multi-token prediction) 결합
텍스트 전용입니다. 베이스 모델은 멀티모달 (multimodal)이지만, mmproj를 포함하지 않으므로 이 파일들로는 시각/비디오 기능을 사용할 수 없습니다.
양자화 크기 및 품질 (vs BF16)
품질은 32개의 프롬프트에 대해 상위 64개 다음 토큰 분포(next-token distributions)에 대한 KL-발산 (KL-divergence)으로 측정되었습니다 (의도적으로 작게 설정한 PPL 평가보다 더 의미 있는 지표입니다). KLD가 낮을수록 BF16에 더 가깝습니다.
| 양자화 (Quant) | 크기 (Size) | 생성 토큰/초 (Gen tok/s) | KLD 평균 | Top-1 일치 (match) |
|---|---|---|---|---|
| Q3_K_M | 16.8 GB | 269 | 0.0655 | 28/32 |
| IQ4_XS | 18.7 GB | 258 | 0.0151 | 29/32 |
| NVFP4 | 19.7 GB | 265 | 0.0420 | 31/32 |
| Q4_K_M | 21.2 GB | 263 | 0.1225 | 27/32 |
| Q5_K_M | 24.7 GB | 258 | 0.0091 | 30/32 |
| Q6_K | 28.5 GB | 245 | 0.0049 | 32/32 |
| Q8_0 | 36.9 GB | 223 | 0.0053 | 30/32 |
(BF16 참조: 162 gen tok/s. 모든 수치는 단일 RTX PRO 6000 Blackwell에서 전체 오프로드 (full offload)로 측정되었습니다.)
최적의 선택 (Sweet spots): 컴팩트한 모델을 원한다면 IQ4_XS, BF16에 근접한 품질을 원한다면 Q5_K_M/Q6_K를 추천합니다. 주의할 점은 — Q4_K_M은 좋은 PPL 차이에도 불구하고 이상하게 높은 KLD를 보이므로, MTP 변형을 사용하는 것이 아니라면 IQ4_XS나 Q5_K_M을 선택하는 것이 좋습니다.
MTP / 투기적 디코딩 (speculative decoding)
업스트림 체크포인트의 설정(config)에는 MTP가 명시되어 있지만 MTP 텐서(tensors)는 포함되어 있지 않습니다. 저는 wang-yang/Agents-A1-MTPLX-Q4 사이드카를 결합하고 llama.cpp의 Qwen3.5-MoE MTP 경로를 통해 변환했습니다 (MTP 블록은 Q6_K로 유지됨).
단일 사용자 서빙 (Single-user serving), temperature=0:
변형 (Variant) | 모드 (Mode) | tok/s | 속도 향상 (Speedup) | 초안 수락률 (Draft acceptance)
IQ4_XS-MTP | target-only | 225 | 1.00× | —
IQ4_XS-MTP | n_max=2 | 275 | 1.22× | 76.5%
IQ4_XS-MTP | n_max=1 | 260 | 1.16× | 86.5%
Q4_K_M-MTP | n_max=1 | 265 | 1.15× | 91.5%
Q4_K_M-MTP | n_max=2 | 274 | 1.19× | 77.2%
따라서 초안 길이 (draft length)를 얼마나 공격적으로 설정하느냐에 따라 단일 스트림에서 약 1.15–1.22배의 자유 처리량 (free throughput)을 얻을 수 있습니다.
실행 방법
qwen35moe를 지원하는 최신 llama.cpp 빌드가 필요합니다 (NVFP4/MTP는 여전히 최신 빌드가 필요함).
hf download LordNeel/Agents-A1-GGUF agents-a1-IQ4_XS.gguf --local-dir ./agents-a1 llama-server -m ./agents-a1/agents-a1-IQ4_XS.gguf -ngl 99 -c 8192 -b 4096 -ub 512 --flash-attn on
MTP 플래그와 NVFP4 경로는 모델 카드 (model card)에 문서화되어 있습니다.
주의 사항
텍스트 전용 (mmproj 없음).
NVFP4는 Blackwell GPU와 FP4 지원 빌드 (BLACKWELL_NATIVE_FP4 = 1)가 필요합니다.
PPL 평가는 규모가 작고 방향성만 보여줍니다 — KLD 수치를 더 신뢰하십시오.
MTP 가중치는 별도의 사이드카 (sidecar)에서 이식된 것이며, 원본 릴리스에 내장된 것이 아닙니다.
전체 메트릭 (metrics), KLD 보고서, 체크섬 (checksums), 차트 및 MTP 감사 (audit) 내용은 모두 리포지토리 (repo)에 있습니다. 피드백은 언제나 환영하며, 특히 Blackwell이 아닌 카드로 이를 실행하는 분들의 의견을 기다립니다.
https://preview.redd.it/xm9r1q48ahah1.png?width=1776&format=png&auto=webp&s=16fffe8d9f460584429298a42c1c68ac336ea206
https://preview.redd.it/td59qp48ahah1.png?width=1622&format=png&auto=webp&s=514828c8eb7cfe8d9ed7b7aa5a4dd7959fd7f33b
https://preview.redd.it/e6m3br48ahah1.png?width=1626&format=png&auto=webp&s=ac8ffd4b93f048f4e4df28cab6ba9ce591a9dab3
https://preview.redd.it/5o68bq48ahah1.png?width=1701&format=png&auto=webp&s=e7696771c8e4176767477ef0d4bf3997eb0304e3
https://preview.redd.it/29z6cq48ahah1.png?width=1626&format=png&auto=webp&s=2a2398d9a81879d81ca34d566bd36e7a882c77d4
제출자: /u/Blahblahblakha
[링크] [댓글]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기