ByteShape Qwen3.6-35B-A3B: 6GB VRAM 노트북에서 Unsloth IQ보다 30% 더 빠름

요약

6GB VRAM 환경에서 Qwen3.6-35B-A3B 모델을 구동하기 위한 ByteShape 양자화 성능을 테스트했습니다. 실험 결과, ByteShape 양자화는 Unsloth 방식 대비 토큰 생성(TG) 속도가 30% 더 빠르며 효율적인 CPU 오프로딩 성능을 보여주었습니다.

핵심 포인트

ByteShape 양자화는 Unsloth 대비 TG 속도 30% 향상
6GB VRAM 제한적인 환경에서 효과적인 CPU 오프로딩 지원
Prefill(PP) 속도는 Unsloth 방식보다 약간 느림
llama.cpp 기반의 양자화 모델 성능 비교 분석

며칠 전 저는 6GB VRAM 노트북에서 MTP(Multi-Token Prediction)를 활용한 실험에 대해 게시물을 올렸습니다. 결과는 그리 좋지 않았습니다. CPU 오프로드(offload)가 MTP 성능을 심각하게 저하시켰기 때문입니다. 하지만 이제 저는 Qwen3.6-35B-A3B를 위한 새로운 ByteShape 양자화(quants)를 시도해 보았습니다. 이 양자화 방식은 뛰어난 품질을 유지하면서도 다른 방식들보다 크기가 더 작고 속도가 더 빠르다고 주장합니다. 저는 성능 측면에서 이전의 최고 설정이었던 Unsloth UD-IQ4_XS와 ByteShape "CPU-5" 양자화를 직접 비교해 보기로 했습니다.

요약(TL;DR): 6GB VRAM 노트북에서 일부를 CPU로 오프로드했을 때, ByteShape 양자화는 비슷한 크기의 Unsloth 양자화보다 TG(Token Generation) 속도는 30% 더 빠르지만, PP(Prefill) 속도는 약간 더 느립니다.

하드웨어 (Hardware)

Asus ROG Zephyrus G14 노트북, 2021년 모델
AMD Ryzen 7 5800HS (Radeon Graphics 포함, 8 CPU 코어 / 16 스레드)
NVIDIA RTX 3060 Laptop GPU, 6GB VRAM
24GB RAM (DDR4 3200 MT/s), 1TB SSD

소프트웨어 (Software)

Linux Mint 22.2 (Ubuntu 24.04 기반), Cinnamon 데스크톱 환경을 Radeon iGPU에서 실행 (따라서 3060은 llama.cpp 전용으로 할당됨)
llama.cpp 버전: 9203 (87589042c), Linux x86_64용 GNU 13.3.0으로 현재 master 브랜치에서 빌드됨
Ubuntu 저장소에서 설치된 CUDA 12.0

테스트 설정 (Test setup)

모든 실험에서 다음 사항을 고정했습니다:

컨텍스트 크기(context size) 65536 (Pi 또는 Dirac 등에서 에이전트 코딩을 수행하거나 Hermes Agent를 실행하기에 충분한 크기)
mmap off, mlock on, ubatch 크기 2048 (기본값인 512보다 훨씬 더 나은 PP 속도를 제공함)
mmproj 미사용 (현재로서는 이미지 입력 지원이 필요하지 않음)
자세한 내용은 아래 구성(configuration)을 참조하십시오

테스트된 양자화 모델:

Unsloth UD-IQ4_XS (17.7 GB)
ByteShape CPU-5 (일명 Q4_K_S-4.22bpw) (18.3 GB)

구성 (Configuration)

제 models-preset.ini 파일의 내용은 다음과 같습니다:

version = 1
[Qwen3.6-35B-A3B]
# Unsloth variant
m = /proj/llms/Qwen3.6-35B-A3B-UD-IQ4_XS.gguf
# ByteShape variant
# m = /proj/llms/Qwen3.6-35B-A3B-Q4_K_S-4.22bpw.gguf
fit = true
fit-target = 64
c = 65536
chat-template-kwargs = {"preserve_thinking": true}
temp = 0.6
top-p = 0.95
min-p = 0.0
top-k = 20
repeat-penalty = 1.0
presence-penalty = 0.0
ctx-checkpoints = 64
flash-attn = on
b = 2048
ub = 2048
jinja = true
ctk = q8_0
ctv = q8_0
threads = 6
parallel = 1
cache-ram = 4096
mmap = false
mlock = true

벤치마크 결과

저는 약 10k 토큰의 테스트 프롬프트와 이어서 1.5~2k 토큰의 생성을 사용했습니다. 두 가지를 모두 두 번 시도해 보았는데, 거의 완전히 동일한 수치가 나왔습니다.

||Unsloth|ByteShape|Δ|
|:-|:-|:-|
|PP tok/s|585|564|-4%|
|TG tok/s|25.4|33.1|+30%|

ByteShape 양자화 모델은 Unsloth보다 용량이 약간 더 크지만, 생성 속도(generation) 면에서 Unsloth 양자화 모델보다 30% 이상 빠릅니다! 다만, 프롬프트 처리 속도(PP speed)는 ByteShape가 약간 낮습니다.

관찰 사항

이러한 차이의 일부는 imatrix (IQ) 방식과 일반 (Q) 양자화 (quants) 방식의 차이로 설명될 수 있습니다. Unsloth UD-IQ4_XS는 imatrix 방식이며, 제가 알기로는 이 방식이 CPU에서 계산할 때 더 느립니다. 더 나은 비교 대상은 제가 이해하기로 마찬가지로 imatrix 방식인 ByteShape GPU-5 양자화 모델일 것입니다. 하지만 저는 UD-IQ4_XS보다 업그레이드된 성능을 원했고, 확실히 그 결과를 얻었습니다!
설정을 변경하지 않았음에도 시간이 지남에 따라 TG 성능이 약 10% 이상 저하되는 것을 확인했습니다. 노트북을 반복적으로 절전 모드로 전환했다가 깨우는 과정이 어떤 식으로든 영향을 주는 것으로 의심되지만, 그 이유는 아직 파악하지 못했습니다. 제가 알기로는 단순히 메모리 압박 (memory pressure)이 쌓이는 문제만은 아닙니다. 기기를 재부팅했을 때 가장 좋은 성능이 나왔으므로, 벤치마킹 전에 재부팅을 수행했습니다.
모델 간의 상세한 품질 측정은 수행하지 않았습니다. ByteShape 모델은 매우 유사해 보입니다. 아마도 사고 과정 출력 (thinking output)이 Unsloth를 사용할 때보다 전반적으로 약간 더 짧은 것 같지만, 이는 측정 오류일 수도 있습니다. ByteShape의 주장이 믿기 어려울 정도로 뛰어나 보이기 때문에, 누군가가 출력 품질 측면에서 ByteShape와 다른 양자화 모델들을 독립적으로 비교해 주기를 바랍니다!

참고 사항

이 포스트는 100% 생분해 가능한 바이트 (bytes)로 조립되었습니다. 이 과정에서 어떤 AI도 해를 입지 않았습니다.

AI 자동 생성 콘텐츠

원문 바로가기