12GB VRAM 클럽: 4070S로 Qwen3.6 27B+35B A3B, Gemma 4 26B A4B+31B 속도 테스트

요약

이 기사는 특정 고성능 워크스테이션 구성(RTX 4070S, AMD 9800x3D 등)을 사용하여 대규모 언어 모델(LLM)의 추론 속도를 테스트한 결과를 다룹니다. 특히 Qwen3.6 (27B+35B) 및 Gemma 4 (26B A4B+31B)와 같은 초대형 모델들을 12GB VRAM 환경에서 구동하며 성능을 검증합니다.

핵심 포인트

RTX 4070S 12GB VRAM 환경에서 대규모 언어 모델(LLM)의 추론 속도 테스트를 수행함.
Qwen3.6 및 Gemma 4와 같은 초대형 모델들을 구동하며 성능을 측정하였음.
시스템 최적화 요소로 iGPU 오프로딩, CUDA 버전 사용 등을 활용하여 VRAM 효율성을 높임.
테스트 환경은 고성능 CPU(AMD 9800x3D) 및 DDR5 메모리를 포함하는 워크스테이션 구성임.

RTX 4070S 12GB VRAM(+10% OC), AMD 9800x3D, 4x16GB DDR5 6000MHz CL30 구성입니다.

EDIT: iGPU에 디스플레이를 오프로드하여 RTX dGPU VRAM 절약. 그렇지 않으면 성능 10% 하락.
EDIT2: CUDA 13.1 사용 중

도구 호출 문제 없이 VS Code에서 잘 작동합니다.

AI 자동 생성 콘텐츠

원문 바로가기

12GB VRAM 클럽: 4070S로 Qwen3.6 27B+35B A3B, Gemma 4 26B A4B+31B 속도 테스트

요약

핵심 포인트

댓글