RTX 4070에서 Qwen 35B를 2.8배 빠르게 만들기
요약
RTX 4070(12GB VRAM) 환경에서 Qwen 35B 모델의 추론 속도를 2.8배 향상시키는 실측 최적화 가이드입니다. Ollama 플래그 설정과 KV 캐시 양자화를 통해 속도와 문맥 확장 성능을 극대화하는 방법을 다룹니다.
핵심 포인트
- Ollama 플래그 설정을 통해 RTX 4070에서 Qwen 35B 속도 2.8배 향상
- KV 캐시 양자화를 활용한 문맥(Context) 길이 8배 확장 방법
- Qwen Code CLI를 활용한 로컬 35B 모델의 코딩 에이전트화
- 직접 측정한 실측 데이터를 바탕으로 한 모델 성능 및 세대별 비교
12GB의 VRAM에는 35B 클래스가 올라가지 않는다 ― 그 상식을 가정용 GPU(RTX 4070)로 뒤집은 실측 노트입니다. Ollama의 자동 설정으로 12.2 tok/s였던 Qwen 35B-A3B를, -ngl 99 --cpu-moe라는 두 가지 플래그를 통해 34.6 tok/s(2.8배)까지 끌어올립니다. 숫자는 모두 이 한 장의 RTX 4070으로 제가 직접 측정한 것이며, 빌려온 벤치마크는 단 하나도 포함되어 있지 않습니다.
제1부 빠르게 구동하기: 승리하는 구성 — --cpu-moe로 2.8배, KV 캐시 (KV Cache) 양자화로 문맥을 8배로 확장하기
제2부 속도와 지능, 세대를 측정하기: 표준 7문항 품질 검증, Qwen 3.5 vs 3.6을 직접 측정했을 때 속도 범위는 거의 동일, 그렇다면 세대 차이는 어디에서 나타나는가
제3부 활용하기: claw-code와 Qwen Code CLI로 로컬 35B를 코딩 에이전트(Coding Agent)화, Qwen Code의 기능 해설까지
뒷면의 테마는 "자신의 숫자를 의심하라"입니다. 공용 PC로 측정하는 한, 숫자는 쉽게 오염됩니다. 그래서 품질 검증이나 세대 비교에 들어가기 전에, 측정 그 자체를 의심하는 장(제4장)을 삽입했습니다.
서장과 제1장, 제2장은 무료 공개. 총 10장 + 종장 + 부록.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기