$300 노트북에서 Qwen 3.5 35B 모델로 10.33 t/s 추론하기

원문 발행 2026. 05. 28. 04:26원문 언어 영어AI 한국어 번역Reddit AI Engineering 원문 보기

요약

저사양 $300 노트북 환경에서 Qwen 3.5 35B 모델을 활용해 10.33 t/s의 추론 속도를 달성한 최적화 프로젝트를 소개합니다. CPU/RAM 기반의 순수 추론 환경에서 성능을 극대화하기 위한 다양한 하드웨어 및 소프트웨어 설정 방법을 다룹니다.

핵심 포인트

Q4_K_S 양자화 및 MTP 투기적 디코딩 활용
코어 고정(Core pinning)을 통한 성능 코어 집중 사용
K/V 캐시 양자화 및 Flash Attention 적용
저사양 하드웨어에서의 MoE 모델 효율성 증명

개요 (Overview):

AI 붐으로 인해 소비자용 컴퓨팅 부품 시장이 점점 더 부족해짐에 따라, AI의 덜 까다로운 애플리케이션을 위해 저사양 하드웨어를 사용하는 방법을 찾는 것은 매우 유익할 수 있습니다. 이것은 매우 유리한 조건에서 순수 CPU/RAM 추론 (Inference)만으로 표준 노트북의 한계를 밀어붙이려는 저의 진행 중인 프로젝트입니다.

하드웨어 (Hardware):

- Lenovo Ideapad Slim 3i 2023 (구매 당시 Best buy, 약 $300)

- 12th Gen Intel© Core™ i3-1215U × 6

- 8gb RAM 온보드 (Flex mode)

- 32gb DDR4 노트북 RAM 확장

- Linux Mint

모델 (Model):

- Qwen 3.5 heretic tune MTP (Q4_K_S 양자화)

링크 : https://huggingface.co/llmfan46/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved

추론 백엔드 (Inference Backend):

Ik_llama.cpp - 버전 4509 (40aae0b6)

cc (Ubuntu 13.3.0-6ubuntu2~24.04.1) 13.3.0로 빌드됨 (x86_64-linux-gnu용)

샘플러 파라미터 (Sampler Parameters) (일반 작업 및 사고(thinking)를 위한 Qwen 3.5 모델 카드 기준):

Temperature: 1.0

top_p: 0.95

top_k: 20

min_p: 0.0

presence_penalty: 1.5

repetition_penalty: 1.0

최적화 (Optimizations):

- Bios -> Battery -> Extreme performance mode (최고 성능 모드)

- Bios -> Quiet mode for fan (팬 소음 모드) (off)

- 최신 ik_llama.cpp 빌드 (더 나은 CPU 성능을 위해)

- OS 내 배터리 모드를 성능(performance)으로 설정

- 시스템 새로 고침 (Fresh system restart)

- 노트북을 시원하고 평평한 표면에 배치

- 코어 고정 (Core pinning) (성능 코어(Performance cores)만 사용) 코어 0 및 2.

- Q4_K_S 양자화 (Quantization), 35B MoE, 활성 파라미터(active params)는 3b뿐임

- 배치 크기 (Batch size) 64 (테스트 결과 엄청난 차이는 보이지 않았으나, 추가 테스트가 필요함. 해가 되지는 않는 것으로 보임.)

- 투기적 디코딩 (Speculative Decoding) 유형 MTP

- Draft Max 3

- K 및 V 캐시를 Q8_0로 양자화

- Flash Attention (Claude가 제안했으나, 기본적으로 활성화되어 있음을 확인)

- Fmoe (Claude가 제안했으나, 기본적으로 활성화되어 있음을 확인)

- rtr (Claude가 제안했으나, 기본적으로 활성화되어 있음을 확인)

테스트 설정 (Testing Setup):

이 설정을 제대로 테스트하기 위해 OS를 완전히 재시작하였으며, 다음 명령어를 사용하여 ik_llama.cpp 엔진을 초기화했습니다.

taskset -c 0,2 ./build/bin/llama-cli

-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf"

-p "User: Please explain the history of france \nAI:"

-n 1028

--spec-type mtp

--draft-max 3

-t 2

-ub 64

--temp 1.0

--top-p 0.95

--top-k 20

--min-p 0.0

--presence-penalty 1.5

--repeat-penalty 1.0

결과 (1028개 토큰 샘플 기준)

Prompt Eval (프롬프트 평가): 22.49 t/s

T/s Inference Speed (추론 속도): 10.33 t/s

관찰 사항:

모델 자체는 비슷한 크기의 다른 모델들보다 훨씬 빠르게 실행되는 것으로 보였습니다. 이는 아마도 Qwen 3.5 모델 라인업, 특히 35B 모델에 적용된 아키텍처 설계(architectural choices) 때문일 가능성이 있습니다. Gemma 4 26b a4b ~Q4 모델로 유사한 설정을 테스트했을 때는 활성 파라미터(active parameters)가 약 25% 더 많음에도 불구하고, 약 3t/s 정도의 훨씬 느린 결과가 나왔습니다.

생성(generation) 과정 동안 온도는 생성 중 90°C로 한계치 바로 아래에서 머물렀습니다. 이전에 llama.cpp를 사용할 때는 열 과열 및 그에 따른 스로틀링(throttling)을 방지하기 위해 모든 코어의 전력을 17.5W로 제한했으나, ik_llama를 사용할 때는 전력 제한(wattage cap)이 필요하지 않다는 것을 발견했습니다. 이는 ik_llama.cpp가 더 나은 CPU 효율성을 가지고 있기 때문일 가능성이 있으나, 외부의 보이지 않는 변수에 의한 것일 수도 있습니다.

향후 잠재적 최적화 방안:

커스텀 BIOS 플래싱이 필요한 XMP 메모리 타이밍(XMP Memory Timings) 수동 구성. (추론 속도 약 +10% 향상 가능성)
온도를 더 잘 제어하기 위해 고성능 서멀 페이스트로 재도포(Thermal Repasting).
DDR4 노트북 RAM에서 DDR5로 교체. (서멀 페이스트 업그레이드와 결합될 경우, 추론 속도 약 +20%의 대략적인 이득 가능성)

AI 자동 생성 콘텐츠

원문 바로가기

Insights