8GB에서 128GB까지, 각 RAM 계층별로 실제로 구동 가능한 로컬 LLM 매핑 (오픈 데이터셋)

저는 친구들의 똑같은 질문("내 16GB MacBook / 3060에서 실제로 뭘 돌릴 수 있어?")에 계속 답하다가, 추측하는 것에 지쳐 스프레드시트를 만들기 시작했습니다. 이것이 실제 데이터셋으로 성장했고, 누구나 사용하거나 수정할 수 있도록 GitHub에 CC BY 라이선스로 공개했습니다.

제가 도달한 경험 법칙(Rule of thumb)은 다음과 같습니다: Q4_K_M 양자화(quantization) 기준으로 모델은 10억 파라미터(billion params)당 약 0.6GB의 메모리가 필요하며, OS, 컨텍스트(context) 및 KV 캐시(KV cache)를 위한 여유 공간을 확보하기 위해 RAM/VRAM의 약 70% 수준으로 크기를 맞추는 것이 좋습니다. 이를 바탕으로 산출한 각 계층별 쾌적한 상한선입니다 (현재 세트에는 62개의 로컬 모델이 포함되어 있습니다):

RAM	사용 가능한 예산	최대 파라미터	적합한 모델 수
8GB	~5.6GB	~8B	23
16GB	~11GB	~14B	36
24GB	~17GB	~27B	41
32GB	~22GB	~35B	50
48GB	~34GB	~47B	53
64GB	~45GB	~70B	56
128GB	~90GB	~122B	58

전체 내용(계층별 특정 모델, 양자화(quant), 로드 크기, 각 모델에 대한 ollama 명령어, 그리고 GPU / Mac / iPhone별 분류)은 여기에서 확인할 수 있습니다: https://github.com/Wecko-ai/modelfit-hardware-dataset . 프로그래밍 방식으로 데이터를 가져오고 싶다면 JSON API도 제공됩니다.

솔직한 주의사항:

tok/s(초당 토큰 수) 수치는 대역폭(bandwidth)에서 유도된 추정치이며, 모든 칩에서 직접 실행한 벤치마크(benchmarks)가 아닙니다. 대략적인 수치로만 참고하세요.
커버리지는 Apple Silicon과 소비자용 NVIDIA에서 가장 강력합니다. AMD는 비교적 최근 데이터이며 비중이 적습니다.
"적합하다(fits)"는 의미는 사용 가능한 속도로 로드되어 실행된다는 뜻이지, "전체 컨텍스트(full context)에서 적합하다"는 뜻은 아닙니다 (긴 컨텍스트는 훨씬 더 많은 메모리를 소모합니다).

만약 잘못된 부분이 보인다면 (적합해야 하는데 안 되는 모델, 잘못 기재된 양자화(quant), 누락된 그래픽 카드 등), 저에게 알려주시거나 PR(Pull Request)을 열어주세요. 오픈 소스로 공개한 목적이 바로 그것입니다.
(솔직히 말씀드리면, 저는 이 데이터를 기반으로 modelfit.io라는 사이트와 CLI도 구축했지만, 데이터셋 자체가 가장 유용한 부분이며 무료로 사용할 수 있습니다.)

submitted by /u/WecK0 to r/LocalLLaMA
[link] [comments]

Insights

8GB에서 128GB까지, 각 RAM 계층별로 실제로 구동 가능한 로컬 LLM 매핑 (오픈 데이터셋)

요약

핵심 포인트

댓글

Pipedrive, 네이티브 MCP 서버 출시: CRM이 AI 에이전트 프로토콜에 합류하다

폐쇄형 모델 제공업체가 모델 추론 외에 무엇을 추가로 수행하는지 알 수 없기 때문에, 폐쇄형 모델과 오픈 모델 사이의 격차는 흔히 가정하는

Anthropic이 유니코드 아포스트로피(Apostrophes)에 추적 신호를 숨겼습니다. 이것은 텔레메트리(Telemetry)가 아니라

ChatGPT가 당신이 아닌 경쟁사를 추천하고 있을지도 모릅니다 — 이를 확인하기 위한 도구를 구축한 방법

Pipedrive, 네이티브 MCP 서버 출시: CRM이 AI 에이전트 프로토콜에 합류하다

폐쇄형 모델 제공업체가 모델 추론 외에 무엇을 추가로 수행하는지 알 수 없기 때문에, 폐쇄형 모델과 오픈 모델 사이의 격차는 흔히 가정하는

Anthropic이 유니코드 아포스트로피(Apostrophes)에 추적 신호를 숨겼습니다. 이것은 텔레메트리(Telemetry)가 아니라

ChatGPT가 당신이 아닌 경쟁사를 추천하고 있을지도 모릅니다 — 이를 확인하기 위한 도구를 구축한 방법