본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 23. 11:50

GPU가 왜 필요하죠?? 6년 된 CPU에서 gemma-4-26B-A4B UD-Q4_K_XL로 64 t/s 생성, 285 PP 달성

요약

6년 된 Xeon CPU 환경에서 llama.cpp 최적화를 통해 Gemma-4 모델을 초당 64토큰의 속도로 구동하는 데 성공했습니다. 이는 고가의 멀티 GPU 장비 없이도 에이전트 기반 코딩이 가능한 수준의 성능을 보여줍니다.

핵심 포인트

  • 6년 된 Xeon CPU로 64 t/s 및 285 PP 달성
  • MTP drafting 및 NUMA mirror fork 최적화 활용
  • 고가 GPU 장비 대비 CPU 최적화의 경제적 가치 강조
  • 에이전트 기반 코딩이 가능한 실용적 성능 확보

2x Xeon 6248R + ik_llama.cpp numa mirror fork 환경에서 MTP drafting를 사용하는 gemma-4-26B-A4B-it-qat-UD-Q4_K_XL 모델을 CPU로만 구동했을 때 = 64 t/s 생성, 285 PP 달성.
이것은 어떤 용도로든 완전히 실행 가능한 수준입니다. 에이전트 기반 코딩 (agentic coding)조차도 가능합니다.
이 하드웨어는 6년 된 것입니다.
거대한 멀티 GPU (multi-GPU) 장비를 맞추는 것보다 이런 기계가 훨씬 저렴하기 때문에, CPU 최적화에 더 많은 집중이 필요합니다.
submitted by /u/TheWolfOfWalmart
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0