GTX 1060 6GB에서 실행되는 qwen3.6-35b-a3b-mtp

저는 32GB DDR3(?) 메모리와 E5-2698v3 (16 코어 32 스레드), 그리고 예전에 채굴용으로 사용했던 (이미 본전을 수없이 뽑은) GTX 1060 6GB가 장착된 10년 된 오래된 Dell T5810 워크스테이션을 가지고 있습니다. Windows(!) 환경의 LMStudio를 통해 이 모델을 실행하는 데 성공했습니다. 제 설정값은 다음과 같습니다:

모델: unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL

컨텍스트 길이 (Ctx length): 131072

GPU 오프로드 (GPU offload): 41

CPU 스레드 풀 크기 (CPU threadpool size): 16

최대 동시 실행 (Max concurrent): 4

전문가 수 (Number of experts): 8

CPU로 오프로드된 MoE 레이어 수 (Number of MOE layers offloaded to CPU): 41

MTP 최대 초안 (MTP max draft): 3

KV 양자화 (KV quantization): 둘 다 Q4_0

프리필 (prefill) 16k: 약 130-150tps

디코딩 (decode) 4k: 약 16tps

채팅용으로 매우 사용하기 좋습니다.

Insights

GTX 1060 6GB에서 실행되는 qwen3.6-35b-a3b-mtp

요약

핵심 포인트

댓글

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력