CPU 만으로 추론 속도를 개선하는 방법에 대한 요청
요약
이 글은 고성능 CPU 환경(Threadripper Pro)에서 대규모 언어 모델(LLM)을 로컬로 구동할 때 추론 속도 개선에 대한 전문적인 조언을 요청하는 내용입니다. 작성자는 현재 5~7 tok/second의 속도를 얻고 있으며, 양자화(quantization)를 사용하면서도 성능 저하 없이 속도를 극대화할 수 있는 '트릭'이나 최적화 방법을 찾고 있습니다. 또한, CPU 업그레이드와 메모리 대역폭 제한에 대한 논쟁적인 주제에 대해 실제 경험자의 의견을 구하고 있습니다.
핵심 포인트
- CPU만 사용하여 대규모 언어 모델(LLM)의 추론 속도를 개선하는 것이 주요 목표입니다.
- 작성자는 이미 Threadripper Pro와 같은 고사양 CPU 환경에서 작업하며, 양자화가 성능 저하를 가져오는 것에 대한 우려를 표하고 있습니다.
- 모델 가중치 손실 없이(weights sacrifice) 추론 속도를 최대화할 수 있는 고급 최적화 기법이나 숨겨진 저장소에 대한 정보가 필요합니다.
- CPU 업그레이드와 메모리 대역폭 제한 여부에 대한 논쟁적인 주제에 대해 실제 경험 기반의 객관적인 조언을 요청하고 있습니다.
이 글은 Q8 및 그 이상의 양자화 (quantization) 를 무조건적으로 사용하면서 로컬에서 매우 큰 모델을 사용하는 사람들을 위한 도움이 필요한 요청입니다. 저의 경우 비용은 추론 속도입니다.
저는 Threadripper Pro 3945WS 와 512GB DDR4 ECC 2666 메모기를 보유하고 있으며, llama.cpp CPU 백엔드를 사용하여 MiniMax-2.7 모델을 처리할 때 초당 약 5~7 토큰 (tok/second) 의 속도를 얻고 있습니다. 맞습니다, 이는 ADHD 세대에게는 고문처럼 느껴질지도 모릅니다. 하지만 저는 대용량 사양을 처리하고 계획하는 데 사용하고 있으며, Qwen-3.6-27B 모델을 구현과 테스트를 위해 조종하고 있습니다. 물론 저비트 양자화를 먼저 시도해 보았지만, 성능 감소는 속도에서의 경미한 증가분을 상쇄할 만큼 가치 있는 것이 아니었습니다.
따라서 모델 가중치 (weights) 를 희생하지 않고 추론 출력을 최대화하기 위해 누군가가 어떤 "트릭", 병합되지 않은 PRs, 혹은 숨겨진 보석들을 알고 있는지 궁금합니다. (CPU 만의 추론이 현재 가장 인기 있는 주제는 아니지만, 어쩌면 잊혀져 가는 GitHub 저장소들이 어딘가에 있을지도 모릅니다.)
또 다른 관심사는 저가형 CPU 를 5975 로 업그레이드하는 것입니다. 많은 사람들이 추론 속도가 메모리 대역폭 (memory bandwidth) 에 의해 제한된다고 강력하게 말하지만, PP(Preprocessing) 단계뿐만 아니라 추론 중에도 모든 코어가 100% 부하를 받고 있다는 것을 저는 확인했습니다. 여기서는 클라우드 모델들도 "유의미한 증가 없음"에서 "속도 두 배 증가"에 이르기까지 모순적인 답변을 내놓고 있습니다. 실제로 이 작업을 해본 누군가로부터 진실을 듣고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기