단일 M3 Ultra에서 MLX를 사용한 DeepSeek V4 Flash Q4-Q8 벤치마크 테스트 진행 중
요약
M3 Ultra 단일 칩 환경에서 MLX 프레임워크를 활용해 DeepSeek V4 Flash 모델의 양자화 성능을 테스트하고 있습니다. 전문가 라우팅 방식에 따라 Q4와 Q8를 혼합 적용하는 커스텀 양자화 기법을 사용합니다.
핵심 포인트
- M3 Ultra 환경에서 MLX 기반 DeepSeek V4 Flash 벤치마크 수행
- 라우팅된 전문가와 나머지 파라미터에 서로 다른 양자화 적용
- Q4-imatrix 방식이 기존 방식보다 우수한 성능을 보임
- RDMA를 활용한 두 대의 M3 Ultra 분산 테스트 예정
단일 M3 Ultra에서 MLX를 사용한 DeepSeek V4 Flash Q4-Q8 벤치마크 테스트가 진행 중입니다!
@antirez의 GGUF q4 (group-size 32)를 모방하여 라우팅된 전문가(routed experts)에는 q4를, 나머지는 q8를 적용하는 매우 커스텀된 양자화 (Quantization) 방식입니다. q4-imatrix가 훨씬 더 좋습니다!
오늘 중으로 RDMA를 사용하여 두 대의 M3 Ultra에서 분산 테스트를 진행할 예정입니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기