Lobste.rs헤드라인2026. 06. 28. 18:34

MAX 모델을 이제 Apple silicon GPU에서 실행할 수 있습니다

요약

MAX 모델을 Apple silicon GPU에서 실행할 수 있는 기능이 26.4 릴리스를 통해 지원됩니다. M1부터 M5까지의 칩셋에서 LLM, 비전, 이미지 확산 모델을 구동할 수 있으며, 특히 M5 시스템의 Neural Accelerators를 활용해 최적의 성능을 제공합니다.

핵심 포인트

Apple silicon GPU(M1~M5)에서 MAX 모델 실행 지원
LLM, 비전 모델 및 이미지 확산 모델 구동 가능
M5 시스템의 Neural Accelerators를 통한 최적화된 행렬 연산
공유 메모리 관리를 위한 메모리 사용량 및 배치 크기 조절 플래그 제공

지난 몇 달 동안, 저희는 Mojo를 통해 Apple silicon GPU를 프로그래밍할 수 있는 기능을 먼저 확보한 후, 기본적인 MAX 그래프를 이러한 GPU에서 실행할 수 있도록 하는 등 Apple silicon GPU에서의 Mojo 및 MAX 지원을 점진적으로 개선해 왔습니다. 26.4 릴리스와 함께, 이제 많은 MAX 모델을 처음으로 Apple silicon GPU에서 실행할 수 있게 되었습니다. 이후 나이틀리(nightlies) 버전에서는 모델 지원이 더욱 개선되었습니다.

현재 나이틀리 버전에서는 M1부터 M5까지의 Apple silicon GPU가 MAX에서 지원되며, 적절한 크기의 텍스트 LLM, 비전 모델(vision models), 그리고 이미지 확산 모델(image diffusion models)이 이러한 장치들에서 실행됩니다. Apple silicon GPU의 세대 간 차이로 인해, 테스트 부족으로 인해 일부 모델은 오래된 M-시리즈 SoC에서 잘 작동하지 않을 수 있습니다 (저희 대부분은 M3-M5 시스템에서 작업하고 있습니다). 제대로 작동하지 않는 모델/시스템 조합을 발견하신다면, 호환성을 추적할 수 있도록 언제든지 이슈(issue)를 제출해 주세요.

MAX 모델은 새로운 Neural Accelerators를 통해 전용 행렬 곱셈(matrix-multiplication) 연산을 포함하고 있기 때문에 M5 시스템에서 가장 잘 실행될 것입니다. Preston과 Fabio는 이러한 연산을 구체적으로 타겟팅하는 커널(kernels)을 작업해 왔으며, 아직 MLX나 다른 프레임워크와 직접적으로 벤치마크를 수행하지는 않았지만, 경험적인 테스트(anecdotal tests)에서 상당히 빠른 모델 실행 속도를 확인했습니다.

Mac에서 간단한 LLM을 테스트해 보려면, MAX를 설정하거나(또는 modular 리포지토리를 클론하여) 다음과 같은 호출을 실행하여 직접 텍스트 생성을 수행할 수 있습니다:

max generate --model-path=Qwen/Qwen3.5-0.8B --device-memory-utilization 0.5 --max-batch-size 1 --prompt "The sky is blue because"

또는 자신의 기기에서 엔드포인트(endpoint) 서빙을 시작하려면 다음과 같이 실행하십시오:

max serve --model-path=Qwen/Qwen3.5-0.8B --device-memory-utilization 0.5 --max-batch-size 1

--device-memory-utilization 및 --max-batch-size 플래그는 Apple silicon 시스템이 CPU와 GPU 간에 공유 메모리(shared memory)를 사용하기 때문에, MAX가 할당하려고 시도하는 메모리 양을 제한하기 위해 존재합니다.

다른 모든 프로세스가 실행 중인 상태에서 시스템에 최소 15 GB의 RAM 여유 공간이 있다면, FLUX.2 [klein] 40억 파라미터 (4-billion-parameter) 이미지 생성 모델을 Mac에서 직접 사용할 수 있습니다. 이미지를 빠르게 생성하려면 modular 리포지토리 (repo)의 simple_offline_generation 예제를 사용할 수 있습니다:

./bazelw run //max/examples/diffusion:simple_offline_generation -- --model black-forest-labs/FLUX.2-klein-4B --num-inference-steps 4 --width 256 --height 256 --prompt "A beautiful sunset"

또는 다음과 같이 Open Responses 엔드포인트 (endpoint)를 서빙할 수 있습니다:

MAX_SERVE_API_TYPES='["responses"]' max serve --model-path black-forest-labs/FLUX.2-klein-4B

저희는 모델 커버리지 (coverage)와 성능을 개선하기 위해 노력하고 있으며, 커널 (kernel)을 튜닝하고 모델 작업을 진행하는 동안 나이틀리 (nightlies) 버전에서 일시적인 성능 저하 (regressions)가 발생할 수 있습니다. Apple silicon GPU, 특히 M5 이전 시스템의 특정 모델들을 위해 최적화해야 할 영역이 여전히 많이 남아 있습니다. 언제나 그렇듯, 최신 개선 사항은 이곳의 나이틀리 (nightlies)를 통해 확인해 주세요.

AI 자동 생성 콘텐츠

원문 바로가기

MAX 모델을 이제 Apple silicon GPU에서 실행할 수 있습니다

요약

핵심 포인트

댓글