Mac (M3 Max, 96GB)에서 Deepseek 4 flash를 실행할 수 있습니다

오늘 전까지는 이것이 실제로 가능하다는 것을 몰랐습니다. https://github.com/antirez/ds4#running-models-larger-than-ram Antirez의 특정 엔진과 그의 특정 ds4 gguf를 사용하면 말 그대로 그냥 실행됩니다.

RAM이 128GB 미만인 경우 실행할 때 --ssd-streaming을 전달해야 한다고 생각합니다. 64GB 이상이면 합리적인 것 같습니다. 또한 다음과 같은 옵션도 전달했습니다:
iogpu.wired_limit_mb=86016
사용 가능한 Metal 할당량을 높이기 위해서입니다. 그런 다음, 얼마나 많은 전문가(experts)가 VRAM에 로드될 수 있는지 밀어붙이기 위해 선택적으로 캐시 안전성(cache safety)을 .70으로 높이도록 리포지토리(repo) 자체를 패치할 수 있습니다.

선택 사항으로, Spotlight를 통해 서버를 바로 실행할 수 있도록 간단한 메뉴 바 .app 데몬을 빌드했습니다. 만드는 데 20분 정도 걸렸습니다.

0614 15:50:38 ds4-server: chat ctx=140..190:50 gen=50 decoding chunk=11.72 t/s avg=11.72 t/s 4.268s 0614 15:50:42 ds4-server: chat ctx=190..240:50 gen=100 decoding chunk=13.31 t/s avg=12.46 t/s 8.025s 0614 15:50:46 ds4-server: chat ctx=240..290:50 gen=150 decoding chunk=12.88 t/s avg=12.60 t/s 11.907s 0614 15:50:46 ds4-server: chat ctx=290..300:10 gen=160 decoding chunk=13.53 t/s avg=12.65 t/s 12.647s

Prefill / 시간:
제 M3 Max 96GB에서 약 11-13tk/s 정도 나옵니다. 콜드 부트(cold-boot) 상태에서 빈 Jan assistant 채팅 시 약 10초가 걸립니다. 그 이후 TTFT(Time To First Token)는 약 3-5초입니다.

불행히도 더 큰 Prefill은 답답하기 때문에, 코딩 작업을 많이 해야 하는 경우 이것을 시도하고 싶을지는 확신이 서지 않습니다. 36k 토큰은 약 2분 30초가 소요됩니다. 하지만 일단 캐시에 들어가면 약 12tk/s를 유지합니다.

어쨌든, 이것이 상식이었을지도 모르지만 저는 이것이 가능할 것이라고 생각하지 못했습니다.. Qwen 27b보다 그렇게 많이 느리지 않습니다. Qwen 27b와 비교했을 때 벤치마크가 어떻게 나올지는 확실하지 않지만, 분명히 모델 크기는 훨씬 더 큽니다.
submitted by /u/Zeeplankton
[link] [comments]

Insights

Mac (M3 Max, 96GB)에서 Deepseek 4 flash를 실행할 수 있습니다

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터