8GB에서 128GB까지, 각 RAM 계층별로 실제로 구동 가능한 로컬 LLM 매핑 (오픈 데이터셋)
요약
사용 가능한 RAM 용량에 따라 구동 가능한 로컬 LLM의 파라미터 크기를 매핑한 오픈 데이터셋을 소개합니다. Q4_K_M 양자화 기준과 메모리 여유 공간을 고려한 경험 법칙을 바탕으로 8GB부터 128GB까지의 가이드를 제공합니다.
핵심 포인트
- 모델 10억 파라미터당 약 0.6GB의 메모리 필요(Q4_K_M 기준)
- OS 및 KV 캐시를 위해 RAM의 약 70% 수준으로 모델 크기 권장
- Apple Silicon 및 NVIDIA 소비자용 GPU 중심의 데이터셋 구성
- GitHub을 통해 누구나 수정 가능한 오픈 데이터셋 및 JSON API 제공
저는 친구들의 똑같은 질문("내 16GB MacBook / 3060에서 실제로 뭘 돌릴 수 있어?")에 계속 답하다가, 추측하는 것에 지쳐 스프레드시트를 만들기 시작했습니다. 이것이 실제 데이터셋으로 성장했고, 누구나 사용하거나 수정할 수 있도록 GitHub에 CC BY 라이선스로 공개했습니다.
제가 도달한 경험 법칙(Rule of thumb)은 다음과 같습니다: Q4_K_M 양자화(quantization) 기준으로 모델은 10억 파라미터(billion params)당 약 0.6GB의 메모리가 필요하며, OS, 컨텍스트(context) 및 KV 캐시(KV cache)를 위한 여유 공간을 확보하기 위해 RAM/VRAM의 약 70% 수준으로 크기를 맞추는 것이 좋습니다. 이를 바탕으로 산출한 각 계층별 쾌적한 상한선입니다 (현재 세트에는 62개의 로컬 모델이 포함되어 있습니다):
| RAM | 사용 가능한 예산 | 최대 파라미터 | 적합한 모델 수 |
|---|---|---|---|
| 8GB | ~5.6GB | ~8B | 23 |
| 16GB | ~11GB | ~14B | 36 |
| 24GB | ~17GB | ~27B | 41 |
| 32GB | ~22GB | ~35B | 50 |
| 48GB | ~34GB | ~47B | 53 |
| 64GB | ~45GB | ~70B | 56 |
| 128GB | ~90GB | ~122B | 58 |
전체 내용(계층별 특정 모델, 양자화(quant), 로드 크기, 각 모델에 대한 ollama 명령어, 그리고 GPU / Mac / iPhone별 분류)은 여기에서 확인할 수 있습니다: https://github.com/Wecko-ai/modelfit-hardware-dataset . 프로그래밍 방식으로 데이터를 가져오고 싶다면 JSON API도 제공됩니다.
솔직한 주의사항:
- tok/s(초당 토큰 수) 수치는 대역폭(bandwidth)에서 유도된 추정치이며, 모든 칩에서 직접 실행한 벤치마크(benchmarks)가 아닙니다. 대략적인 수치로만 참고하세요.
- 커버리지는 Apple Silicon과 소비자용 NVIDIA에서 가장 강력합니다. AMD는 비교적 최근 데이터이며 비중이 적습니다.
- "적합하다(fits)"는 의미는 사용 가능한 속도로 로드되어 실행된다는 뜻이지, "전체 컨텍스트(full context)에서 적합하다"는 뜻은 아닙니다 (긴 컨텍스트는 훨씬 더 많은 메모리를 소모합니다).
만약 잘못된 부분이 보인다면 (적합해야 하는데 안 되는 모델, 잘못 기재된 양자화(quant), 누락된 그래픽 카드 등), 저에게 알려주시거나 PR(Pull Request)을 열어주세요. 오픈 소스로 공개한 목적이 바로 그것입니다.
(솔직히 말씀드리면, 저는 이 데이터를 기반으로 modelfit.io라는 사이트와 CLI도 구축했지만, 데이터셋 자체가 가장 유용한 부분이며 무료로 사용할 수 있습니다.)
submitted by /u/WecK0 to r/LocalLLaMA
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기