본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 04. 27. 18:23

llama.cpp DeepSeek v4 Flash 실험적 추론

요약

본 기사는 llama.cpp를 사용하여 DeepSeek v4 Flash 모델을 실험적으로 구동하는 과정을 다루고 있습니다. 특히, 2비트 양자화된 GGUF 파일을 활용하여 제한적인 RAM 환경에서도 추론이 가능함을 보여줍니다. 저자는 이 모델의 성능과 안정성을 높이기 위해 라우팅된 전문가(routed experts)는 2비트로, 나머지 부분은 Q8로 다르게 양자화하는 방식을 적용했습니다.

핵심 포인트

  • llama.cpp를 통해 DeepSeek v4 Flash 모델을 실험적으로 구동할 수 있습니다.
  • 2비트 양자화를 사용했음에도 불구하고, 제한된 RAM 환경(128GB)에서도 추론이 가능합니다.
  • 모델의 성능 최적화를 위해 라우팅된 전문가와 공유 전문가에 다른 양자화 수준(2bit vs Q8)을 적용했습니다.
  • 최적화 결과, MacBook M3 Max에서 초당 21 토큰(t/s)으로 추론 속도가 향상되었습니다.

안녕하세요, 여기 에서 llama.cpp 의 DeepSeek v4 를 위한 실험적 지원을 찾을 수 있으며, 여기 에는 추론을 위해 사용할 수 있는 GGUF 파일이 있습니다. 이 파일을 사용하면 (lol) 128GB 의 RAM 만으로도 추론을 수행할 수 있습니다. 제한된 테스트에서도 양자화 (quantized) 가 2 bit 로 이루어진 이 모델은 매우 견고해 보이며, MacBook M3 Max 에서의 속도가 초당 17 토큰 (t/s) 으로 상당히 흥미롭습니다. 저는 우리가 실용 가능한 영역 (usable zone) 에 도달했다고 생각합니다.

저는 라우팅된 전문가 (routed experts) 를 두 가지 다른 2 bit 양자화 방식으로 사용하여 오차와 크기를 균형을 맞추도록 크게 양자화 (heavily quantized) 했습니다. 모델의 나머지 부분, 각 레이어의 공유 전문가 (shared expert) 를 포함하여 Q8 을 사용했습니다. 대부분의 가중치가 라우팅된 전문가에 있기 때문에 모델의 가장 민감한 부분을 다루는 것은 가치가 없습니다.

저는 2 bit 로 양자화되어도 Qwen 3.6 27B 보다 더 강력한 모델이 될 것이라 느낍니다. 하지만 이는 제가 이 모델과 채팅하며 얻은 답변의 품질에 기반한 느낌일 뿐입니다. 더 많은 실험과 벤치마크를 수행해야 합니다.

수정 CMake 오류에 대해 사과드립니다. 저는 llama.cpp 의 표준 양자화 도구를 사용하는 대신 배포하지 않기로 결정된 도구로 GGUF 를 생성했습니다 (최종 버전 준비가 안 됨..., 주로 해킹 방식). 이제 문제가 해결되었습니다. 또한 최적화를 거친 후 Metal 에서의 추론 속도는 초당 21 토큰으로 향상되었습니다.

수정 2 긴 컨텍스트 버그도 수정되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
15

댓글

0