Agents-A1 GGUF 양자화 모델 (35B Qwen3.5-MoE 에이전트 모델) — Blackwell용 NVFP4 + 작동 가능한 MTP - Insights | Molayo

Repo → huggingface.co/LordNeel/Agents-A1

InternScience/Agents-A1의 GGUF 양자화 (quants) 버전을 제작했습니다. 이 모델은 35B Mixture of Experts (MoE) 에이전트 모델입니다 (Qwen3.5-MoE, 활성 파라미터 ~3B, 256개 전문가 / 8+1 활성, hybrid linear+full attention, 256K 컨텍스트). 이 모델은 장기적 탐색 (long-horizon search), 도구 호출 (tool-calling), 그리고 과학/공학적 에이전트 작업에 최적화되어 구축되었습니다. 베이스 모델 자체의 벤치마크는 ~35B 클래스에서 매우 강력합니다 (제 수치가 아닌 모델 제작사의 수치입니다 — 해당 모델 카드를 참조하세요).

단순한 양자화 배포 이상의 가치를 위해 두 가지를 추가했습니다:

Blackwell GPU를 위한 NVFP4 빌드
실제 투기적 디코딩 (speculative decoding)을 위해 측정된 MTP (multi-token prediction) 결합

텍스트 전용입니다. 베이스 모델은 멀티모달 (multimodal)이지만, mmproj를 포함하지 않으므로 이 파일들로는 시각/비디오 기능을 사용할 수 없습니다.

양자화 크기 및 품질 (vs BF16)
품질은 32개의 프롬프트에 대해 상위 64개 다음 토큰 분포(next-token distributions)에 대한 KL-발산 (KL-divergence)으로 측정되었습니다 (의도적으로 작게 설정한 PPL 평가보다 더 의미 있는 지표입니다). KLD가 낮을수록 BF16에 더 가깝습니다.

양자화 (Quant)	크기 (Size)	생성 토큰/초 (Gen tok/s)	KLD 평균	Top-1 일치 (match)
Q3_K_M	16.8 GB	269	0.0655	28/32
IQ4_XS	18.7 GB	258	0.0151	29/32
NVFP4	19.7 GB	265	0.0420	31/32
Q4_K_M	21.2 GB	263	0.1225	27/32
Q5_K_M	24.7 GB	258	0.0091	30/32
Q6_K	28.5 GB	245	0.0049	32/32
Q8_0	36.9 GB	223	0.0053	30/32

(BF16 참조: 162 gen tok/s. 모든 수치는 단일 RTX PRO 6000 Blackwell에서 전체 오프로드 (full offload)로 측정되었습니다.)

최적의 선택 (Sweet spots): 컴팩트한 모델을 원한다면 IQ4_XS, BF16에 근접한 품질을 원한다면 Q5_K_M/Q6_K를 추천합니다. 주의할 점은 — Q4_K_M은 좋은 PPL 차이에도 불구하고 이상하게 높은 KLD를 보이므로, MTP 변형을 사용하는 것이 아니라면 IQ4_XS나 Q5_K_M을 선택하는 것이 좋습니다.

MTP / 투기적 디코딩 (speculative decoding)
업스트림 체크포인트의 설정(config)에는 MTP가 명시되어 있지만 MTP 텐서(tensors)는 포함되어 있지 않습니다. 저는 wang-yang/Agents-A1-MTPLX-Q4 사이드카를 결합하고 llama.cpp의 Qwen3.5-MoE MTP 경로를 통해 변환했습니다 (MTP 블록은 Q6_K로 유지됨).

단일 사용자 서빙 (Single-user serving), temperature=0:

변형 (Variant) | 모드 (Mode) | tok/s | 속도 향상 (Speedup) | 초안 수락률 (Draft acceptance)

IQ4_XS-MTP | target-only | 225 | 1.00× | —
IQ4_XS-MTP | n_max=2 | 275 | 1.22× | 76.5%
IQ4_XS-MTP | n_max=1 | 260 | 1.16× | 86.5%
Q4_K_M-MTP | n_max=1 | 265 | 1.15× | 91.5%
Q4_K_M-MTP | n_max=2 | 274 | 1.19× | 77.2%

따라서 초안 길이 (draft length)를 얼마나 공격적으로 설정하느냐에 따라 단일 스트림에서 약 1.15–1.22배의 자유 처리량 (free throughput)을 얻을 수 있습니다.
실행 방법
qwen35moe를 지원하는 최신 llama.cpp 빌드가 필요합니다 (NVFP4/MTP는 여전히 최신 빌드가 필요함).
hf download LordNeel/Agents-A1-GGUF agents-a1-IQ4_XS.gguf --local-dir ./agents-a1 llama-server -m ./agents-a1/agents-a1-IQ4_XS.gguf -ngl 99 -c 8192 -b 4096 -ub 512 --flash-attn on
MTP 플래그와 NVFP4 경로는 모델 카드 (model card)에 문서화되어 있습니다.
주의 사항

텍스트 전용 (mmproj 없음).
NVFP4는 Blackwell GPU와 FP4 지원 빌드 (BLACKWELL_NATIVE_FP4 = 1)가 필요합니다.
PPL 평가는 규모가 작고 방향성만 보여줍니다 — KLD 수치를 더 신뢰하십시오.
MTP 가중치는 별도의 사이드카 (sidecar)에서 이식된 것이며, 원본 릴리스에 내장된 것이 아닙니다.

전체 메트릭 (metrics), KLD 보고서, 체크섬 (checksums), 차트 및 MTP 감사 (audit) 내용은 모두 리포지토리 (repo)에 있습니다. 피드백은 언제나 환영하며, 특히 Blackwell이 아닌 카드로 이를 실행하는 분들의 의견을 기다립니다.
https://preview.redd.it/xm9r1q48ahah1.png?width=1776&format=png&auto=webp&s=16fffe8d9f460584429298a42c1c68ac336ea206
https://preview.redd.it/td59qp48ahah1.png?width=1622&format=png&auto=webp&s=514828c8eb7cfe8d9ed7b7aa5a4dd7959fd7f33b
https://preview.redd.it/e6m3br48ahah1.png?width=1626&format=png&auto=webp&s=ac8ffd4b93f048f4e4df28cab6ba9ce591a9dab3
https://preview.redd.it/5o68bq48ahah1.png?width=1701&format=png&auto=webp&s=e7696771c8e4176767477ef0d4bf3997eb0304e3
https://preview.redd.it/29z6cq48ahah1.png?width=1626&format=png&auto=webp&s=2a2398d9a81879d81ca34d566bd36e7a882c77d4
제출자: /u/Blahblahblakha
[링크] [댓글]

Insights

Agents-A1 GGUF 양자화 모델 (35B Qwen3.5-MoE 에이전트 모델) — Blackwell용 NVFP4 + 작동 가능한 MTP

요약

핵심 포인트

댓글

Anthropic SDK v0.115.0 / v0.109.0란? Managed Agents API 강화 내용 3분 속보 해설

Claude Sonnet 5의 새로운 기능 안내

중국산 LLM 사이에서의 선택: 나의 실제 벤치마크 결과

Firefly, NASA로부터 1억 4,400만 달러 규모의 달 운송 계약 수주

Claude Sonnet 5의 새로운 기능 안내

중국산 LLM 사이에서의 선택: 나의 실제 벤치마크 결과

Firefly, NASA로부터 1억 4,400만 달러 규모의 달 운송 계약 수주