본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 09. 07:11

Pushing a 5-Year-Old 6GB VRAM laptop to Its Limits: Qwen3.6-35B-A3B

요약

이 글은 구형 하드웨어(5년 된 노트북, RTX 2060 6GB VRAM)의 한계를 극복하고 대규모 언어 모델인 Qwen3.6-35B를 성공적으로 실행한 경험을 공유합니다. 작성자는 복잡하게 설정된 `llama-server` 명령줄 인수를 통해 이 거대한 모델을 로컬 환경에서 구동하는 상세 과정을 보여주며, 이를 통해 23 t/s와 같은 높은 추론 속도를 달성했음을 강조합니다. 이는 제한적인 자원에서도 최신 오픈 모델을 활용할 수 있는 실질적인 방법을 제시합니다.

핵심 포인트

  • 6GB VRAM의 구형 노트북에서 Qwen3.6-35B와 같은 대규모 언어 모델(LLM) 실행 성공 사례를 공유함.
  • 최적화된 `llama-server` 명령어 및 다양한 파라미터 설정(예: `--threads`, `--cache-ram`, `--ctx-size`)을 통해 성능을 극대화하는 방법을 제시함.
  • 모델의 추론 속도(t/s)와 같은 구체적인 성능 지표를 제공하여 실용성을 높임 (최대 23 t/s).
  • 장문 컨텍스트 처리(`Long Context`)를 위한 별도의 최적화된 설정과 파라미터가 포함되어 있음.

지난 몇 주 동안 이 모델을 내 하드웨어에서 실행하는 데 시도해 보았습니다. 오픈 모델이 얼마나 더 좋아졌는지 여전히 놀랍습니다. 이 서브와 그 훌륭한 사람들 없이는 5 년 된 노트북에서 이 모델을 실행할 수 없었을 것입니다. 이 모델은 약 23 t/s 로 실제로 사용 가능하고, 배터리 연결 없이도 10+ t/s 를 달성할 수 있습니다. pi agent 와 함께 사용하면 매우 좋습니다.

이 설정을 개선할 수 있다고 생각하신다면 더 알고 싶습니다...

제 블로그 포스트 여기 에서 내 전체 localmaxxing 여정을 문서화했습니다, 누군가에게 도움이 될 수도 있습니다.

TL;DR

노트북: Asus ROG Zephyrus G14 2020

CPU: Ryzen 7 (8c 16t) @ 2900 Mhz (boost disabled)
Mem: 24GB DDR4-3200 RAM
GPU: RTX 2060 Max-Q 6GB VRAM

General:

#!/bin/bash
llama-server
-m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf
-mm ~/dev/models/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
--no-mmproj-offload
-a Qwen3.6-35B-A3B-APEX-64k
--host 0.0.0.0 --port 8000
--fit off -fa on
--ctx-size 65536
--threads 8 --threads-batch 12
--cpu-range 0-7 --cpu-strict 1
--cpu-range-batch 0-11 --cpu-strict-batch 1
--numa isolate
--prio 2
--no-mmap --parallel 1 --jinja
--cache-type-k q8_0 --cache-type-v q8_0
--ubatch-size 1024 --batch-size 2048
--n-cpu-moe 36
--cache-reuse 256
--ctx-checkpoints 8
--metrics
--cache-ram 4096
--spec-type ngram-mod
--spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48

Long Context: (Tom's fork)

#!/bin/bash
lm-server-tq
-m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf
-a Qwen3.6-35B-A3B-APEX-128k
--host 0.0.0.0 --port 8000
--fit off -fa on
--ctx-size 131072
--threads 8 --threads-batch 12
--cpu-range 0-7 --cpu-strict 1
--cpu-range-batch 0-11 --cpu-strict-batch 1
--numa isolate
--prio 2
--no-mmap --parallel 1 --jinja
--cache-type-k turbo3 --cache-type-v turbo4
--ubatch-size 1024 --batch-size 2048
--n-cpu-moe 36
--cache-reuse 256
--ctx-checkpoints 8
--metrics
--cache-ram 4096
--spec-type ngram-mod
--spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0