본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 10:46

Mac (M3 Max, 96GB)에서 Deepseek 4 flash를 실행할 수 있습니다

요약

M3 Max(96GB) 환경에서 특정 엔진과 GGUF 파일을 사용하여 Deepseek 4 flash 모델을 실행하는 방법을 소개합니다. SSD 스트리밍과 Metal 할당량 조절을 통해 RAM 용량 한계를 극복하고 구동하는 기술적 팁을 다룹니다.

핵심 포인트

  • SSD 스트리밍 옵션을 통해 RAM 용량보다 큰 모델 실행 가능
  • Metal 할당량 확장을 위한 iogpu.wired_limit_mb 설정 활용
  • M3 Max 96GB 기준 약 11-13tk/s의 추론 속도 확인
  • 대규모 Prefill 시 긴 대기 시간이 발생할 수 있음

오늘 전까지는 이것이 실제로 가능하다는 것을 몰랐습니다. https://github.com/antirez/ds4#running-models-larger-than-ram Antirez의 특정 엔진과 그의 특정 ds4 gguf를 사용하면 말 그대로 그냥 실행됩니다.

RAM이 128GB 미만인 경우 실행할 때 --ssd-streaming을 전달해야 한다고 생각합니다. 64GB 이상이면 합리적인 것 같습니다. 또한 다음과 같은 옵션도 전달했습니다:
iogpu.wired_limit_mb=86016
사용 가능한 Metal 할당량을 높이기 위해서입니다. 그런 다음, 얼마나 많은 전문가(experts)가 VRAM에 로드될 수 있는지 밀어붙이기 위해 선택적으로 캐시 안전성(cache safety)을 .70으로 높이도록 리포지토리(repo) 자체를 패치할 수 있습니다.

선택 사항으로, Spotlight를 통해 서버를 바로 실행할 수 있도록 간단한 메뉴 바 .app 데몬을 빌드했습니다. 만드는 데 20분 정도 걸렸습니다.

0614 15:50:38 ds4-server: chat ctx=140..190:50 gen=50 decoding chunk=11.72 t/s avg=11.72 t/s 4.268s 0614 15:50:42 ds4-server: chat ctx=190..240:50 gen=100 decoding chunk=13.31 t/s avg=12.46 t/s 8.025s 0614 15:50:46 ds4-server: chat ctx=240..290:50 gen=150 decoding chunk=12.88 t/s avg=12.60 t/s 11.907s 0614 15:50:46 ds4-server: chat ctx=290..300:10 gen=160 decoding chunk=13.53 t/s avg=12.65 t/s 12.647s

Prefill / 시간:
제 M3 Max 96GB에서 약 11-13tk/s 정도 나옵니다. 콜드 부트(cold-boot) 상태에서 빈 Jan assistant 채팅 시 약 10초가 걸립니다. 그 이후 TTFT(Time To First Token)는 약 3-5초입니다.

불행히도 더 큰 Prefill은 답답하기 때문에, 코딩 작업을 많이 해야 하는 경우 이것을 시도하고 싶을지는 확신이 서지 않습니다. 36k 토큰은 약 2분 30초가 소요됩니다. 하지만 일단 캐시에 들어가면 약 12tk/s를 유지합니다.


어쨌든, 이것이 상식이었을지도 모르지만 저는 이것이 가능할 것이라고 생각하지 못했습니다.. Qwen 27b보다 그렇게 많이 느리지 않습니다. Qwen 27b와 비교했을 때 벤치마크가 어떻게 나올지는 확실하지 않지만, 분명히 모델 크기는 훨씬 더 큽니다.
submitted by /u/Zeeplankton
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0