Mac mini M4 Pro / M4 Max에서 로컬 LLM 구동하기: VRAM 요약표와 GGUF 양자화 선택 방법
요약
Apple Silicon의 통합 메모리 구조와 실제 GPU 가용 VRAM 사이의 차이점을 설명하고, Mac mini M4 Pro/Max 환경에서 로컬 LLM을 효율적으로 구동하기 위한 가이드를 제공합니다. 메모리 할당 상한선에 따른 실용 VRAM 용량과 GGUF 양자화 선택 전략을 정리하여 최적의 모델 구동 환경을 제안합니다.
핵심 포인트
- Apple Silicon의 통합 메모리는 전체 용량을 모두 VRAM으로 사용할 수 없으며, macOS 설정에 따라 GPU 할당 상한선이 존재함
- M4 Pro 24GB 모델의 경우 실용적인 VRAM 사용 가능 범위는 약 16GB 내외임
- 추론 속도는 메모리 대역폭(Bandwidth)에 직결되며, M4 Pro와 M4 Max/Ultra 간에는 상당한 성능 차이가 있음
- GGUF 양자화 선택 시 Q4_K_M을 기본 최적해로 사용하고, VRAM 여유에 따라 Q5 또는 Q8로 상향하는 것이 권장됨
서론
Mac mini M4 Pro가 출시된 이후부터 SNS에서 "24GB가 있으면 무엇을 돌릴 수 있을까?", "64GB라면 70B 모델이 가능할까?"와 같은 질문을 자주 접하게 되었습니다.
하지만 조사해 보면, "M 시리즈 = 통합 메모리 (Unified Memory) = 전부 VRAM으로 사용 가능"이라고 오해하고 있는 기사도 많으며, 실제로 모델을 로드한 뒤 "메모리 부족"으로 포기하게 되는 패턴이 상당히 많습니다.
이 글에서는 다음 내용을 정리합니다:
M 시리즈의 통합 메모리 (Unified Memory)와 "GPU에서 보이는 VRAM"의 차이
M4 Pro / M4 Max / M4 Ultra별 실용 VRAM 요약표
GGUF 양자화 (Q8 / Q5 / Q4 / Q2)의 구분 사용법
24GB / 48GB / 64GB 각각에서 "실용적인 속도로 구동되는" 모델 목록
마지막으로, 자신의 구성에서 무엇이 돌아가는지 즉시 판정할 수 있는 Web 도구 (runlocal.cc)를 소개합니다.
M 시리즈의 통합 메모리 ≠ 그대로 VRAM
Apple Silicon의 통합 메모리 (Unified Memory)는 CPU와 GPU가 동일한 메모리 풀을 공유하는 구조이지만, GPU가 확보할 수 있는 상한선은 macOS 측에서 제한되어 있습니다.
기본 상한값 (recommendedMaxWorkingSetSize)은 대략 다음과 같습니다:
| 탑재 메모리 | GPU 할당 상한 (기본값) |
|---|---|
| 8GB | 약 5.3GB (~66%) |
| ... |
즉, M4 Pro 24GB의 경우, GGUF 모델이 사용할 수 있는 VRAM은 약 16GB가 안전권입니다. "24GB가 있으니 24GB 모델을 올릴 수 있다"라고 생각하면 확실하게 스와핑 (Swap)이 발생합니다.
참고로, 이 상한선은 다음 명령어로 일시적으로 높일 수 있습니다 (자기 책임):
# 예: 24GB 머신에서 20GB까지 GPU에 개방
sudo sysctl iogpu.wired_limit_mb=20480
단, OS 측의 메모리가 고갈되면 프리징 (Freeze)의 원인이 되므로, 실용적으로는 기본값인 75% 규칙을 따르는 것이 무난합니다.
M 시리즈별 「실용 VRAM」 요약표
실용 VRAM은 OS 기본 설정에서 GGUF 모델 로드에 사용할 수 있는 용량으로 정의합니다.
| 구성 | 통합 메모리 | 실용 VRAM | 대역폭 |
|---|---|---|---|
| Mac mini M4 Pro | 24GB | ~16GB | 273 GB/s |
| ... |
대역폭 (Memory Bandwidth)은 추론 속도에 직결됩니다. M4 Pro의 273 GB/s는 GeForce RTX 3060 (360 GB/s)보다 느리며, 동일한 모델이라도 M4 Max / M4 Ultra와 비교했을 때 token/s가 2~4배 차이 난다는 점을 기억해 두시기 바랍니다.
GGUF 양자화 선택 방법 (Q8 / Q5 / Q4 / Q2)
GGUF는 llama.cpp 계열에서 사용되는 모델 형식으로, 양자화 레벨이 여러 종류가 있습니다. 대략적인 감각은 다음과 같습니다:
| 양자화 | 사이즈 비율 (vs FP16) | 품질 저하 | 용도 |
|---|---|---|---|
| Q8_0 | ~53% | 거의 없음 | VRAM에 여유가 있을 때 최적 |
| ... |
실용적인 철칙:
- 먼저 Q4_K_M을 시도할 것. 9할의 용도에서 이것이 최적해입니다.
- VRAM에 1.3배 이상의 여유가 있다면 Q5_K_M / Q8_0로 올려서 품질을 확인하십시오.
- Q4로 돌아가지 않을 경우에만 IQ3_M → Q2_K를 검토하십시오 (70B 대역에서 빈번함).
구성별 「구동 모델」 매트릭스
여기서부터는 실기에서 확인하기 쉬운 대표 모델 × M 시리즈 구성의 매트릭스입니다. ◯ = Q4_K_M으로 실용 속도 (10 tok/s 이상 기준), △ = 구동은 되지만 메모리가 아슬아슬하거나 속도 타협 필요, × = 로드 불가.
M4 Pro 24GB (실용 VRAM ~16GB)
| 모델 | Q4_K_M VRAM | 판정 | 코멘트 |
|---|---|---|---|
| Qwen 3.5 9B | 6.5GB | ◯ | 여유 있음. Q8_0 (10.5GB)로도 가능 |
| ... |
M4 Pro 48GB / M4 Max 48GB (실용 VRAM ~36GB)
| 모델 | Q4_K_M VRAM | 판정 | 코멘트 |
|---|---|---|---|
| Gemma 4 27B | 17GB | ◯ | 24B~30B 대의 스위트 스팟 (Sweet Spot) |
| ... |
M4 Ultra 64GB (실용 VRAM ~48GB)
| 모델 | Q4_K_M VRAM | 판정 | 코멘트 |
|---|---|---|---|
| Qwen 3.5 72B | 44GB | ◯ | 64GB Mac의 진면목 |
| ... |
M4 Ultra 128GB+ (실용 VRAM ~96GB)
GLM 4.6 (Q2_K로 105GB) 등 100GB급 모델이 간신히 가시권에 들어옵니다. 실용적으로는 128GB 이하에서는 70B~120B 대가 베스트이며, 그 이상의 프론티어 모델 (GLM 5, GLM 5.1)은 M3/M4 Ultra 192GB 이상이 전제 조건입니다.
내 Mac에서 무엇이 돌아가는지 즉시 판정하기
여기까지 읽고 "내 메모리로는 결국 무엇을 올릴 수 있는 거지?"라고 생각하신 분들을 위해.
runlocal.cc는 메모리 용량을 입력하면, 현재 공개되어 있는 주요 LLM 중 어떤 것이 어떤 양자화 (Quantization) 레벨로 돌아가는지 즉시 판정해 주는 웹 도구입니다 (무료·등록 불필요).
- M4 Pro 24GB / 48GB / 64GB 프리셋 제공
- Q8 / Q4 / Q2 단계별로 "풀 품질 / 제한 있음 / 불가"를 색상으로 구분하여 표시
- 각 모델의 상세 페이지에서 GGUF 사이즈 및 벤치마크 (MMLU / HumanEval) 확인 가능
GPU 측면에서도 RTX 5090 / 4090 / 3090 / Ryzen AI Max+ 395 등을 지원합니다.
요약
- M 시리즈의 통합 메모리 (Unified Memory)는 약 66~75%가 GPU에 할당된다는 것을 전제로 생각할 것
- M4 Pro 24GB는 7B~14B 대의 스위트 스팟이며, 27B는 버거움
- M4 Pro 48GB / M4 Max 48GB는 27B~35B 대가 베스트이며, 70B는 IQ3_M으로 겨우 가능
- M4 Ultra 64GB에서 비로소 70B 클래스가 Q4_K_M으로 실용적인 속도에 도달
- 기본값은 Q4_K_M. 그 외에는 VRAM 여유/부족에 따른 대응책 필요
llama.cpp / ollama / LM Studio 중 무엇을 사용하더라도 이 수치는 공통적이므로, 먼저 VRAM 요약표를 통해 "내 머신의 한계"를 파악한 뒤 모델 선택으로 넘어가면 불필요한 다운로드를 줄일 수 있습니다.
📬 로컬 AI 동향을 주 1회 일본어로 발신 중: 주간 runlocal 뉴스레터
요청 및 오류 지적은 X (@runlocal_dev) 또는 Zenn 댓글로 부탁드립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기