Reddit요약2026. 05. 23. 09:46

8GB 3070 Ti에서 Qwen3.6-35B-A3B Q4 262k 컨텍스트 구현 시 30tps 달성

요약

8GB VRAM을 가진 RTX 3070 Ti 환경에서 Qwen3.6-35B-A3B MoE 모델을 활용해 262k 컨텍스트를 구현하고 30tps 이상의 속도를 달성하는 최적화 방법을 소개합니다. 양자화 기법과 KV 캐시 관리, Ubuntu 환경 설정을 통해 저사양 GPU에서도 대규모 컨텍스트 추론이 가능함을 보여줍니다.

핵심 포인트

MoE 모델의 특성을 활용해 8GB VRAM 내에서 효율적인 추론 가능
IQ4_NL_XL 및 q8_0 KV 캐시 양자화로 대규모 컨텍스트 확보
Ubuntu Server 환경 사용 시 Windows 대비 높은 추론 성능 달성
llama-server 파라미터 조정을 통한 메모리 및 속도 최적화

..그리고 8GB VRAM 환경에서 컨텍스트(context)를 320K, 400K, 512K, 그리고 네.. 1M(100만)까지도 밀어붙일 수 있습니다. 하지만 150k를 넘어가면 눈에 띄게 느려지기 시작하므로, 정말로 더 큰 컨텍스트가 필요한 경우에만 이렇게 할 것 같습니다.

이것은 APEX-I-Quality 또는 Q4_K_XL 양자화(quants)를 사용한 것이며, 두 방식 모두 Q4_K_M보다 성능이 좋습니다 (512k 이상의 컨텍스트를 위해서는 IQ4_NL_XL 사용).

저는 총 32GB의 DDR4-2666 메모리를 보유하고 있으며, 이는 최소 사양인 DDR4보다 약간 높은 수준입니다.

더 좋은 GPU와 더 많은 VRAM을 가진 많은 사용자들이 오히려 효율성이 떨어져서, 좋은 tps(초당 토큰 수)로 실행하기 위해 컨텍스트를 64k 이하로 대폭 낮춰야 하는 것을 보았는데, 왜 그런지는 이해가 되지 않습니다. 하지만 제가 지금까지 튜닝하며 배운 두 가지 사항이 있습니다.

첫째, 35B-A3B는 MoE(Mixture of Experts) 모델이기 때문입니다. 런타임(runtime) 동안 VRAM에는 약 3.5B 정도만 있으면 됩니다.

8GB는 활성 모델 레이어(active model layers, ~3GB) + GPU 버퍼(GPU buffers, ~2GB) + q8_0 형식의 262144 KV 캐시(KV Cache, 2.56GB)를 담기에 충분합니다. 매우 타이트하지만 작동합니다.

모든 레이어를 VRAM에 강제로 할당하거나 sm, fa 등과 같은 다른 런타임 파라미터(runtime parameters)를 조정하는 엔진 파라미터 조작은 저에게는 오히려 모델 속도를 늦추거나 VRAM 및 시스템 RAM을 고갈시키는 것으로 보입니다.

이 스크린샷을 예로 들면, MoE가 최적으로 작동하려면 전체가 VRAM에 들어가야 한다고 믿는 오해가 있습니다.

둘째, Windows 11이 게임에 좋지 않은 것처럼

Ubuntu Server 환경에서 (2일 전 새로 듀얼 부팅 설치하였으며, 가장 빠른 NVMe의 160GB 파티션에 설치됨)

추론 (Inference) 속도는 약 34 tps이며 떨어지지 않습니다. 토큰 생성 중에는 종종 약 37 tps까지 올라가기도 합니다!
시스템 메모리는 22GB가 가득 차 있으며, 덕분에 i3wm/x11과 필요한 소프트웨어를 실행할 수 있는 8GB의 시스템 RAM 여유를 확보했습니다 (GPU를 사용하는 화려한 컴포저나 앱은 귀중한 VRAM을 소모하므로 사용하지 않습니다).
IQ4_NL_XL 및 KV를 위한 turbo4 양자화 (quant)를 사용하여 1M 컨텍스트 (context)까지 구현할 수 있었습니다.

지금까지는 충분히 만족스럽습니다. 하지만 저는 구형 소형 GPU를 가지고 있어서, 이를 운영 체제용으로 연결해 사용하면서 3070 Ti는 온전히 LLM 전용으로 유지할 수 있습니다.

두 프로필 모두 코딩에 초점이 맞춰져 있으며, Windows 11에서도 작동해야 하지만 남는 메모리가 훨씬 적을 것입니다.

256K 컨텍스트 (context) 메인 프로필:

llama-server \
  -m Qwen3.6-35B-A3B-Q4_K_XL.gguf \
  --jinja \
  --parallel 1 \
  --temp 0.7 \
  --top-k 20 \
  --top-p 0.95 \
  --min-p 0 \
  --reasoning-budget 4096 \
  -n 32768 \
  --no-context-shift \
  --no-mmap \
  -c 262144 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --host 0.0.0.0

및 512K 컨텍스트 (context) 프로필:

llama-server \
  -m Qwen3.6-35B-A3B-Q4_K_XL.gguf \
  --jinja \
  --parallel 1 \
  --temp 0.7 \
  --top-k 20 \
  --top-p 0.95 \
  --min-p 0 \
  --reasoning-budget 4096 \
  -n 32768 \
  --no-context-shift \
  --no-mmap \
  -c 524288 \
  --rope-scale 2 \
  --rope-scaling yarn \
  --yarn-orig-ctx 262144 \
  --cache-type-k turbo4 \
  --cache-type-v turbo4 \
  --host 0.0.0.0

누군가에게 이 정보가 도움이 되기를 바랍니다. 저는 이 커뮤니티를 사랑하며, 다른 분들과 함께 Qwen3.7-35B-A3B 대기실에서 손톱을 깨물며 기대하고 있습니다. ㅎㅎ

AI 자동 생성 콘텐츠

원문 바로가기

8GB 3070 Ti에서 Qwen3.6-35B-A3B Q4 262k 컨텍스트 구현 시 30tps 달성

요약

핵심 포인트

댓글