GTX 1060 6GB에서 실행되는 qwen3.6-35b-a3b-mtp
요약
10년 된 구형 Dell 워크스테이션과 GTX 1060 6GB 환경에서 qwen3.6-35B 모델을 LMStudio로 실행하는 데 성공한 사례입니다. GGUF 양자화와 CPU/GPU 오프로딩 설정을 통해 실용적인 추론 속도를 확보했습니다.
핵심 포인트
- GTX 1060 6GB 및 구형 CPU 환경에서 대형 모델 실행 성공
- LMStudio와 GGUF 양자화 모델을 활용한 최적화
- 131k 컨텍스트 길이 및 MoE 레이어 오프로딩 설정
- 프리필 130-150tps, 디코딩 16tps의 준수한 성능
저는 32GB DDR3(?) 메모리와 E5-2698v3 (16 코어 32 스레드), 그리고 예전에 채굴용으로 사용했던 (이미 본전을 수없이 뽑은) GTX 1060 6GB가 장착된 10년 된 오래된 Dell T5810 워크스테이션을 가지고 있습니다. Windows(!) 환경의 LMStudio를 통해 이 모델을 실행하는 데 성공했습니다. 제 설정값은 다음과 같습니다:
모델: unsloth qwen3.6-35B-a3b-MTP-GGUF UD Q4_K_XL
컨텍스트 길이 (Ctx length): 131072
GPU 오프로드 (GPU offload): 41
CPU 스레드 풀 크기 (CPU threadpool size): 16
최대 동시 실행 (Max concurrent): 4
전문가 수 (Number of experts): 8
CPU로 오프로드된 MoE 레이어 수 (Number of MOE layers offloaded to CPU): 41
MTP 최대 초안 (MTP max draft): 3
KV 양자화 (KV quantization): 둘 다 Q4_0
프리필 (prefill) 16k: 약 130-150tps
디코딩 (decode) 4k: 약 16tps
채팅용으로 매우 사용하기 좋습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기