Zenn헤드라인2026. 07. 03. 06:17

RTX 4070에서 Qwen 35B를 2.8배 빠르게 만들기

요약

RTX 4070(12GB VRAM) 환경에서 Qwen 35B 모델의 추론 속도를 2.8배 향상시키는 실측 최적화 가이드입니다. Ollama 플래그 설정과 KV 캐시 양자화를 통해 속도와 문맥 확장 성능을 극대화하는 방법을 다룹니다.

핵심 포인트

Ollama 플래그 설정을 통해 RTX 4070에서 Qwen 35B 속도 2.8배 향상
KV 캐시 양자화를 활용한 문맥(Context) 길이 8배 확장 방법
Qwen Code CLI를 활용한 로컬 35B 모델의 코딩 에이전트화
직접 측정한 실측 데이터를 바탕으로 한 모델 성능 및 세대별 비교

12GB의 VRAM에는 35B 클래스가 올라가지 않는다 ― 그 상식을 가정용 GPU(RTX 4070)로 뒤집은 실측 노트입니다. Ollama의 자동 설정으로 12.2 tok/s였던 Qwen 35B-A3B를, -ngl 99 --cpu-moe라는 두 가지 플래그를 통해 34.6 tok/s(2.8배)까지 끌어올립니다. 숫자는 모두 이 한 장의 RTX 4070으로 제가 직접 측정한 것이며, 빌려온 벤치마크는 단 하나도 포함되어 있지 않습니다.

제1부 빠르게 구동하기: 승리하는 구성 — --cpu-moe로 2.8배, KV 캐시 (KV Cache) 양자화로 문맥을 8배로 확장하기
제2부 속도와 지능, 세대를 측정하기: 표준 7문항 품질 검증, Qwen 3.5 vs 3.6을 직접 측정했을 때 속도 범위는 거의 동일, 그렇다면 세대 차이는 어디에서 나타나는가
제3부 활용하기: claw-code와 Qwen Code CLI로 로컬 35B를 코딩 에이전트(Coding Agent)화, Qwen Code의 기능 해설까지

뒷면의 테마는 "자신의 숫자를 의심하라"입니다. 공용 PC로 측정하는 한, 숫자는 쉽게 오염됩니다. 그래서 품질 검증이나 세대 비교에 들어가기 전에, 측정 그 자체를 의심하는 장(제4장)을 삽입했습니다.

서장과 제1장, 제2장은 무료 공개. 총 10장 + 종장 + 부록.

AI 자동 생성 콘텐츠

원문 바로가기

Insights

RTX 4070에서 Qwen 35B를 2.8배 빠르게 만들기

요약

핵심 포인트

댓글

트럼프 관세 공포로 인해 소매업체들의 재고 확보 경쟁이 치열해지며 중국발 연말 연휴 물동량 조기 급증: 보고서

칩메이커 약세와 미국 물가 압력 완화로 인한 혼조세 양상의 주식 시장

FedEx, 공급망 부문을 CMA CGM에 14억 달러에 매각

트럼프 관세 공포로 인해 소매업체들의 재고 확보 경쟁이 치열해지며 중국발 연말 연휴 물동량 조기 급증: 보고서

칩메이커 약세와 미국 물가 압력 완화로 인한 혼조세 양상의 주식 시장

FedEx, 공급망 부문을 CMA CGM에 14억 달러에 매각