Mac mini M4 Pro / M4 Max에서 로컬 LLM 구동하기: VRAM 요약표와 GGUF 양자화 선택 방법

요약

Apple Silicon의 통합 메모리 구조와 실제 GPU 가용 VRAM 사이의 차이점을 설명하고, Mac mini M4 Pro/Max 환경에서 로컬 LLM을 효율적으로 구동하기 위한 가이드를 제공합니다. 메모리 할당 상한선에 따른 실용 VRAM 용량과 GGUF 양자화 선택 전략을 정리하여 최적의 모델 구동 환경을 제안합니다.

핵심 포인트

Apple Silicon의 통합 메모리는 전체 용량을 모두 VRAM으로 사용할 수 없으며, macOS 설정에 따라 GPU 할당 상한선이 존재함
M4 Pro 24GB 모델의 경우 실용적인 VRAM 사용 가능 범위는 약 16GB 내외임
추론 속도는 메모리 대역폭(Bandwidth)에 직결되며, M4 Pro와 M4 Max/Ultra 간에는 상당한 성능 차이가 있음
GGUF 양자화 선택 시 Q4_K_M을 기본 최적해로 사용하고, VRAM 여유에 따라 Q5 또는 Q8로 상향하는 것이 권장됨

서론

Mac mini M4 Pro가 출시된 이후부터 SNS에서 "24GB가 있으면 무엇을 돌릴 수 있을까?", "64GB라면 70B 모델이 가능할까?"와 같은 질문을 자주 접하게 되었습니다.

하지만 조사해 보면, "M 시리즈 = 통합 메모리 (Unified Memory) = 전부 VRAM으로 사용 가능"이라고 오해하고 있는 기사도 많으며, 실제로 모델을 로드한 뒤 "메모리 부족"으로 포기하게 되는 패턴이 상당히 많습니다.

이 글에서는 다음 내용을 정리합니다:

M 시리즈의 통합 메모리 (Unified Memory)와 "GPU에서 보이는 VRAM"의 차이
M4 Pro / M4 Max / M4 Ultra별 실용 VRAM 요약표
GGUF 양자화 (Q8 / Q5 / Q4 / Q2)의 구분 사용법
24GB / 48GB / 64GB 각각에서 "실용적인 속도로 구동되는" 모델 목록

마지막으로, 자신의 구성에서 무엇이 돌아가는지 즉시 판정할 수 있는 Web 도구 (runlocal.cc)를 소개합니다.

M 시리즈의 통합 메모리 ≠ 그대로 VRAM

Apple Silicon의 통합 메모리 (Unified Memory)는 CPU와 GPU가 동일한 메모리 풀을 공유하는 구조이지만, GPU가 확보할 수 있는 상한선은 macOS 측에서 제한되어 있습니다.

기본 상한값 (recommendedMaxWorkingSetSize)은 대략 다음과 같습니다:

탑재 메모리	GPU 할당 상한 (기본값)
8GB	약 5.3GB (~66%)
...

즉, M4 Pro 24GB의 경우, GGUF 모델이 사용할 수 있는 VRAM은 약 16GB가 안전권입니다. "24GB가 있으니 24GB 모델을 올릴 수 있다"라고 생각하면 확실하게 스와핑 (Swap)이 발생합니다.

참고로, 이 상한선은 다음 명령어로 일시적으로 높일 수 있습니다 (자기 책임):

# 예: 24GB 머신에서 20GB까지 GPU에 개방
sudo sysctl iogpu.wired_limit_mb=20480

단, OS 측의 메모리가 고갈되면 프리징 (Freeze)의 원인이 되므로, 실용적으로는 기본값인 75% 규칙을 따르는 것이 무난합니다.

M 시리즈별 「실용 VRAM」 요약표

실용 VRAM은 OS 기본 설정에서 GGUF 모델 로드에 사용할 수 있는 용량으로 정의합니다.

구성	통합 메모리	실용 VRAM	대역폭
Mac mini M4 Pro	24GB	~16GB	273 GB/s
...

대역폭 (Memory Bandwidth)은 추론 속도에 직결됩니다. M4 Pro의 273 GB/s는 GeForce RTX 3060 (360 GB/s)보다 느리며, 동일한 모델이라도 M4 Max / M4 Ultra와 비교했을 때 token/s가 2~4배 차이 난다는 점을 기억해 두시기 바랍니다.

GGUF 양자화 선택 방법 (Q8 / Q5 / Q4 / Q2)

GGUF는 llama.cpp 계열에서 사용되는 모델 형식으로, 양자화 레벨이 여러 종류가 있습니다. 대략적인 감각은 다음과 같습니다:

양자화	사이즈 비율 (vs FP16)	품질 저하	용도
Q8_0	~53%	거의 없음	VRAM에 여유가 있을 때 최적
...

실용적인 철칙:

먼저 Q4_K_M을 시도할 것. 9할의 용도에서 이것이 최적해입니다.
VRAM에 1.3배 이상의 여유가 있다면 Q5_K_M / Q8_0로 올려서 품질을 확인하십시오.
Q4로 돌아가지 않을 경우에만 IQ3_M → Q2_K를 검토하십시오 (70B 대역에서 빈번함).

구성별 「구동 모델」 매트릭스

여기서부터는 실기에서 확인하기 쉬운 대표 모델 × M 시리즈 구성의 매트릭스입니다. ◯ = Q4_K_M으로 실용 속도 (10 tok/s 이상 기준), △ = 구동은 되지만 메모리가 아슬아슬하거나 속도 타협 필요, × = 로드 불가.

M4 Pro 24GB (실용 VRAM ~16GB)

모델	Q4_K_M VRAM	판정	코멘트
Qwen 3.5 9B	6.5GB	◯	여유 있음. Q8_0 (10.5GB)로도 가능
...

M4 Pro 48GB / M4 Max 48GB (실용 VRAM ~36GB)

모델	Q4_K_M VRAM	판정	코멘트
Gemma 4 27B	17GB	◯	24B~30B 대의 스위트 스팟 (Sweet Spot)
...

M4 Ultra 64GB (실용 VRAM ~48GB)

모델	Q4_K_M VRAM	판정	코멘트
Qwen 3.5 72B	44GB	◯	64GB Mac의 진면목
...

M4 Ultra 128GB+ (실용 VRAM ~96GB)

GLM 4.6 (Q2_K로 105GB) 등 100GB급 모델이 간신히 가시권에 들어옵니다. 실용적으로는 128GB 이하에서는 70B~120B 대가 베스트이며, 그 이상의 프론티어 모델 (GLM 5, GLM 5.1)은 M3/M4 Ultra 192GB 이상이 전제 조건입니다.

내 Mac에서 무엇이 돌아가는지 즉시 판정하기

여기까지 읽고 "내 메모리로는 결국 무엇을 올릴 수 있는 거지?"라고 생각하신 분들을 위해.

runlocal.cc는 메모리 용량을 입력하면, 현재 공개되어 있는 주요 LLM 중 어떤 것이 어떤 양자화 (Quantization) 레벨로 돌아가는지 즉시 판정해 주는 웹 도구입니다 (무료·등록 불필요).

M4 Pro 24GB / 48GB / 64GB 프리셋 제공
Q8 / Q4 / Q2 단계별로 "풀 품질 / 제한 있음 / 불가"를 색상으로 구분하여 표시
각 모델의 상세 페이지에서 GGUF 사이즈 및 벤치마크 (MMLU / HumanEval) 확인 가능

GPU 측면에서도 RTX 5090 / 4090 / 3090 / Ryzen AI Max+ 395 등을 지원합니다.

요약

M 시리즈의 통합 메모리 (Unified Memory)는 약 66~75%가 GPU에 할당된다는 것을 전제로 생각할 것
M4 Pro 24GB는 7B~14B 대의 스위트 스팟이며, 27B는 버거움
M4 Pro 48GB / M4 Max 48GB는 27B~35B 대가 베스트이며, 70B는 IQ3_M으로 겨우 가능
M4 Ultra 64GB에서 비로소 70B 클래스가 Q4_K_M으로 실용적인 속도에 도달
기본값은 Q4_K_M. 그 외에는 VRAM 여유/부족에 따른 대응책 필요

llama.cpp / ollama / LM Studio 중 무엇을 사용하더라도 이 수치는 공통적이므로, 먼저 VRAM 요약표를 통해 "내 머신의 한계"를 파악한 뒤 모델 선택으로 넘어가면 불필요한 다운로드를 줄일 수 있습니다.

📬 로컬 AI 동향을 주 1회 일본어로 발신 중: 주간 runlocal 뉴스레터

요청 및 오류 지적은 X (@runlocal_dev) 또는 Zenn 댓글로 부탁드립니다.

AI 자동 생성 콘텐츠

원문 바로가기