본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 25. 09:49

Mac M 시리즈에서 로컬 LLM을 구동하려면 Ollama / mlx-lm / vllm-mlx 중 무엇을 사용해야 하는가

요약

Apple Silicon 환경에서 로컬 LLM을 구동하기 위한 세 가지 주요 도구인 Ollama, mlx-lm, vllm-mlx를 비교 분석합니다. 사용자의 목적에 따라 간편한 실행, 개발자용 라이브러리, 서버 구축 중 최적의 선택지를 제안합니다.

핵심 포인트

  • Ollama: 입문자에게 가장 쉽고 간편한 로컬 LLM 실행 도구
  • mlx-lm: MLX 직접 제어 및 Fine-tuning이 필요한 개발자용 패키지
  • vllm-mlx: Mac을 로컬 LLM 서버로 활용하려는 사용자에게 적합
  • Apple Silicon 최적화를 위해 MLX 백엔드 활용이 중요함

Mac M 시리즈, 즉 Apple Silicon 상에서 로컬 LLM을 구동할 경우, 우선 후보로 떠오르는 것은 Ollama입니다.

다만 최근에는 Apple Silicon에 최적화된 MLX 계열의 선택지도 늘어나고 있습니다. 게다가 Ollama 자체도 Apple Silicon을 위해 MLX 백엔드 프리뷰를 공개하고 있습니다. (Ollama)

이 기사에서는 Mac M 시리즈에서 로컬 LLM을 구동할 때 살펴봐야 할 선택지를 다음의 3가지로 압축하여 정리합니다.

  • Ollama
  • mlx-lm
  • vllm-mlx

먼저 결론입니다.

목적추천
어쨌든 간단하게 시작하고 싶다Ollama
...
이미지로 표현하자면 다음과 같습니다.
Ollama = 입구로서 가장 쉬움
mlx-lm = MLX를 직접 사용하는 개발자용
vllm-mlx = Mac을 로컬 LLM 서버로 만들고 싶은 사람용

로컬 LLM을 시도해 보는 것만이라면, 우선 Ollama로 충분합니다.

성능 검증, fine-tuning (미세 조정), Python 임베딩, API 서버 용도까지 고려한다면 mlx-lm이나 vllm-mlx도 비교 대상이 됩니다.

항목Ollamamlx-lmvllm-mlx
포지셔닝로컬 LLM 실행 도구MLX 기반 Python 패키지Apple Silicon용 vLLM 스타일 서버
...

Ollama는 로컬 LLM을 간단하게 구동하기 위한 도구입니다.

ollama run <model-name>

가장 큰 강점은 도입의 간편함입니다. 모델 취득, 실행, 로컬 API화까지 심플하게 다룰 수 있습니다. Open WebUI, Continue, Aider, Claude Code 계열의 로컬 워크플로우와도 조합하기 쉽습니다.

또한, 2026년 시점에서는 Ollama 자체도 Apple Silicon을 위해 MLX 백엔드를 프리뷰하고 있습니다. 공식 블로그에서는 Ollama 0.19의 Apple Silicon용 실행에서 MLX를 이용하며, Qwen3.5-35B-A3B의 비교 결과도 소개되고 있습니다. (Ollama)

단, 공식 비교에서는 양자화 (quantization) 형식도 달라졌기 때문에, 단순히 "MLX만으로 몇 배 빨라졌다"라고 읽는 것은 위험합니다.

Ollama는 우선 로컬 LLM을 시도해 보고 싶은 사람의 입구로서 매우 강력한 선택지입니다. 반면, MLX를 직접 제어하고 싶거나 fine-tuning까지 하고 싶은 경우에는 mlx-lm이 더 적합합니다.

mlx-lm은 Apple의 MLX 상에서 LLM을 구동하기 위한 Python 패키지입니다. 공식 README에서는 텍스트 생성, Hugging Face Hub 연동, 양자화 (quantization), LoRA, full fine-tuning, 양자화 모델을 이용한 fine-tuning 등이 설명되어 있습니다. (GitHub)

pip install mlx-lm
mlx_lm.generate --prompt "How tall is Mt Everest?"

Ollama가 "간단하게 모델을 구동하기 위한 도구"라면, mlx-lm은 "Apple Silicon 상에서 MLX를 직접 사용하여 LLM을 다루기 위한 라이브러리"에 가깝습니다.

Python 코드에서 모델을 호출하거나, 양자화하거나, LoRA로 fine-tuning 하는 경우에는 mlx-lm이 자연스럽습니다.

Apple Silicon 상의 로컬 LLM 추론을 비교한 연구에서는, MLX가 해당 실험 조건하에서 sustained generation throughput (지속적인 생성 처리량)이 높다고 보고되었습니다. 다만, Mac Studio M2 Ultra / 192GB unified memory 등 특정 조건에서의 결과이므로, 사용 중인 Mac에서 동일한 결과가 나온다는 보장은 없습니다. (arXiv)

mlx-lm은 Mac 상에서 MLX를 직접 다루고 싶은 개발자용 선택지입니다.

vllm-mlx는 Apple Silicon Mac을 위한 vLLM 스타일의 추론 서버입니다.

공식 README에서는 continuous batching (연속 배치), paged KV cache, prefix caching, SSD-tiered cache를 갖추고 있으며, OpenAI /v1/*

및 Anthropic /v1/messages

두 가지를 모두 동일한 프로세스에서 제공할 수 있다고 설명되어 있습니다. (GitHub)

pip install vllm-mlx
vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000 --continuous-batching

Ollama도 로컬 API를 제공할 수 있지만, vllm-mlx는 보다 서버 지향적인 설계입니다. 여러 클라이언트가 사용하는 경우나, OpenAI SDK / Anthropic SDK 호환 방식으로 로컬 모델을 호출하고 싶을 때 후보가 됩니다.

vllm-mlx의 논문에서는 M4 Max 상에서 텍스트 모델의 처리량 (throughput) 개선이나, 16개의 병렬 요청 시의 총 처리량 (aggregate throughput) 개선 등이 보고되었습니다. (arXiv)

vllm-mlx는 Mac을 로컬 LLM 서버로 사용하고 싶은 사람을 위한 것입니다. 단순히 하나의 모델로 채팅만 하고 싶다면 Ollama가 더 간편합니다.

이 기사에서는 비교 대상에서 제외했지만, 다음 또한 중요한 후보입니다.

Mac M 시리즈에서 로컬 LLM을 구동한다면, 우선 아래의 이해만으로도 충분합니다.

Ollama : 우선 실행해보기
mlx-lm : MLX를 직접 사용하기
vllm-mlx : Mac을 추론 서버로 만들기

처음에는 Ollama.

Python에서 MLX를 직접 사용하고 싶다면 mlx-lm.

로컬 LLM을 API 서버로 사용하고 싶다면 vllm-mlx.

이 세 가지만 파악해 두면, Mac M 시리즈에서의 로컬 LLM 환경을 상당히 정리하기 쉬워질 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0