MiniMax-M3-EAGLE3-GGUF - Llama.cpp 호환 MiniMax M3 EAGLE 초안 (draft) 모델!
요약
MiniMax M3 EAGLE 디코더 모델이 llama.cpp에서 사용할 수 있도록 GGUF 형식으로 변환되었습니다. 양자화 버전을 활용하여 VRAM 최적화 설정을 적용할 경우 추론 속도를 향상시킬 수 있습니다.
핵심 포인트
- MiniMax M3 EAGLE 모델의 GGUF 변환 완료
- llama.cpp를 통한 모델 실행 및 사용 가능
- 양자화 및 VRAM 최적화 설정을 통한 추론 속도 개선
- Hugging Face를 통해 모델 및 가이드 제공
안녕하세요 여러분!
llama.cpp를 위한 새로운 PR(Pull Request)을 통해, Inferact/MiniMax-M3-EAGLE3의 MiniMax M3 EAGLE 디코더 (decoder)가 성공적으로 GGUF로 변환되었으며 문제없이 작동합니다!
HF (Hugging Face) 저장소에는 PR에 병합하는 방법과 모델을 실행하는 방법에 대한 지침이 포함되어 있습니다. 저는 2x3090 및 128GB DDR4 시스템에서 UD-Q2_K_XL 양자화 (quant) 버전을 사용하여 테스트했으며, --fit 옵션 사용과 초안 (draft) 모델이 RAM 대신 VRAM에 위치하도록 설정한 덕분에 2.3 tk/s에서 5 tk/s로 속도가 향상되었습니다.
여기서 확인하실 수 있습니다: https://huggingface.co/tonjum/MiniMax-M3-EAGLE3-GGUF
/u/maxwell321 님이 제출함
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기