Qwen3.6 35B A3B와 llama.cpp MTP를 사용한 12GB VRAM에서의 80 tok/sec 및 128K 컨텍스트 성능
요약
이 기술 기사는 제한된 VRAM 환경(12GB)에서도 높은 성능을 유지하는 방법을 공유합니다. 최신 llama.cpp 빌드와 MTP PR을 활용하여, Qwen3.6 35B A3B 모델과 결합했을 때 80 tok/sec 이상의 빠른 토큰 생성 속도와 128K 컨텍스트 처리 능력을 달성했음을 보여줍니다.
핵심 포인트
- 12GB VRAM 환경에서도 고성능 LLM 추론이 가능함을 입증했습니다.
- llama.cpp의 최신 빌드 및 MTP PR 사용이 성능 향상에 핵심적인 역할을 했습니다.
- Qwen3.6 35B A3B 모델을 사용하여 80 tok/sec 이상의 빠른 토큰 생성 속도를 달성했습니다.
- 128K 컨텍스트 처리 능력을 확보하여 장문 처리에 강점을 보였습니다.
다른 12GB GPU 소유자들이 제가 매우 준수하다고 생각하는 토큰 생성 속도를 적은 VRAM으로 달성할 수 있기를 바라며 제 설정을 공유하고 싶었습니다. 최신 llama.cpp 빌드와 MTP PR을 사용해서, 여기에서 찾은 벤치마크([ht])에서 80% 이상의 초안 승인율(draft acceptance rate)로 80 tok/sec 이상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기