M2 MacBook Pro에서 6개의 로컬 모델 속도 벤치마크 수행
요약
M2 MacBook Pro(96GB 통합 메모리) 환경에서 Ollama를 통해 6개 로컬 모델의 추론 속도를 벤치마크한 결과입니다. Qwen2.5 3B 모델이 예상과 달리 Llama 3.2를 포함한 동급 모델들보다 빠른 성능을 보여주었습니다.
핵심 포인트
- M2 MacBook Pro 96GB 환경에서 4-bit 양자화 모델 테스트
- Qwen2.5 3B 모델이 동급 체급 모델 중 가장 빠른 속도 기록
- Qwen, Llama 3.2, Phi3는 실시간 채팅 및 라이브 완성에 적합
- Mistral 및 Llama 3.1은 비동기 작업에 권장
- Qwen 14b 모델은 체급 특성상 지연(lag)이 발생함
모델당 동일한 200 토큰 완성(completion) 작업을 20회 실행하여 결과를 평균냈습니다. 설정: M2 MacBook Pro, 96GB 통합 메모리(unified memory), Ollama, 전 모델 4-bit 양자화(quantization) 적용.
가장 놀라웠던 점은 Qwen2.5 3B가 동일한 크기 체급의 Llama 3.2를 포함한 다른 모든 모델을 근소하게 앞섰다는 것입니다. Llama에 투입된 최적화 작업을 고려했을 때 속도 면에서 Llama가 승리할 것이라 예상했습니다. Qwen(3b)은 벤치마크뿐만 아니라 일상적인 사용에서도 눈에 띄게 더 빠릿하게 느껴집니다(다만 이는 개인적인 의견입니다).
Qwen, Llama 3.2, Phi3는 대부분의 실시간 사용(채팅, 라이브 완성)에 충분히 빠릅니다. 노란색(Mistral 및 Llama 3.1)은 기다릴 필요가 없는 비동기(async) 작업에 적합하며, 빨간색(Qwen 14b)은 지연(lag)이 느껴지기 시작하는 단계입니다. 하지만 14b 모델인데 무엇을 기대하겠습니까?
submitted by /u/UsedMorning9886
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기