Reddit요약2026. 04. 27. 18:23

llama.cpp DeepSeek v4 Flash 실험적 추론

요약

본 기사는 llama.cpp를 사용하여 DeepSeek v4 Flash 모델을 실험적으로 구동하는 과정을 다루고 있습니다. 특히, 2비트 양자화된 GGUF 파일을 활용하여 제한적인 RAM 환경에서도 추론이 가능함을 보여줍니다. 저자는 이 모델의 성능과 안정성을 높이기 위해 라우팅된 전문가(routed experts)는 2비트로, 나머지 부분은 Q8로 다르게 양자화하는 방식을 적용했습니다.

핵심 포인트

llama.cpp를 통해 DeepSeek v4 Flash 모델을 실험적으로 구동할 수 있습니다.
2비트 양자화를 사용했음에도 불구하고, 제한된 RAM 환경(128GB)에서도 추론이 가능합니다.
모델의 성능 최적화를 위해 라우팅된 전문가와 공유 전문가에 다른 양자화 수준(2bit vs Q8)을 적용했습니다.
최적화 결과, MacBook M3 Max에서 초당 21 토큰(t/s)으로 추론 속도가 향상되었습니다.

안녕하세요, 여기 에서 llama.cpp 의 DeepSeek v4 를 위한 실험적 지원을 찾을 수 있으며, 여기 에는 추론을 위해 사용할 수 있는 GGUF 파일이 있습니다. 이 파일을 사용하면 (lol) 128GB 의 RAM 만으로도 추론을 수행할 수 있습니다. 제한된 테스트에서도 양자화 (quantized) 가 2 bit 로 이루어진 이 모델은 매우 견고해 보이며, MacBook M3 Max 에서의 속도가 초당 17 토큰 (t/s) 으로 상당히 흥미롭습니다. 저는 우리가 실용 가능한 영역 (usable zone) 에 도달했다고 생각합니다.

저는 라우팅된 전문가 (routed experts) 를 두 가지 다른 2 bit 양자화 방식으로 사용하여 오차와 크기를 균형을 맞추도록 크게 양자화 (heavily quantized) 했습니다. 모델의 나머지 부분, 각 레이어의 공유 전문가 (shared expert) 를 포함하여 Q8 을 사용했습니다. 대부분의 가중치가 라우팅된 전문가에 있기 때문에 모델의 가장 민감한 부분을 다루는 것은 가치가 없습니다.

저는 2 bit 로 양자화되어도 Qwen 3.6 27B 보다 더 강력한 모델이 될 것이라 느낍니다. 하지만 이는 제가 이 모델과 채팅하며 얻은 답변의 품질에 기반한 느낌일 뿐입니다. 더 많은 실험과 벤치마크를 수행해야 합니다.

수정 CMake 오류에 대해 사과드립니다. 저는 llama.cpp 의 표준 양자화 도구를 사용하는 대신 배포하지 않기로 결정된 도구로 GGUF 를 생성했습니다 (최종 버전 준비가 안 됨..., 주로 해킹 방식). 이제 문제가 해결되었습니다. 또한 최적화를 거친 후 Metal 에서의 추론 속도는 초당 21 토큰으로 향상되었습니다.

수정 2 긴 컨텍스트 버그도 수정되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

llama.cpp DeepSeek v4 Flash 실험적 추론

요약

핵심 포인트

댓글