r/LocalLLaMA분석2026. 04. 30. 15:19

MiMo-V2.5-GGUF (미리보기 제공)

요약

AesSedai가 llama.cpp에 MiMo V2.5의 텍스트-텍스트 추론을 지원하는 PR을 제출했습니다. 또한, Q8_0 및 MoE 최적화 양자화 모델을 포함하여 일부 양자화 모델을 Hugging Face에 업로드했습니다. 이 작업은 MiMo V2.5를 다양한 환경에서 효율적으로 사용하기 위한 것이며, 커뮤니티의 검토와 피드백이 기대됩니다.

핵심 포인트

MiMo V2.5의 텍스트-텍스트 추론 지원을 위해 llama.cpp에 PR이 제출되어 통합을 기다리고 있습니다.
Q8_0 및 MoE 최적화 양자화 모델 등 MiMo V2.5 관련 GGUF 모델들이 Hugging Face에 공개되었습니다.
모델의 효율적인 사용을 위해 Q4_K_M과 같은 다양한 양자화 레벨이 제공되었으며, 초기 버그(NAN 문제)가 수정되어 재업로드되었습니다.
MiMo V2.5 외에도 Pro 버전 지원 및 다른 주요 커뮤니티 멤버들의 모델 출시가 예정되어 있습니다.

안녕하세요, AesSedai 입니다.

llama.cpp 에서 MiMo V2.5 의 텍스트-텍스트 추론을 지원하기 위해 PR 을 제출했습니다 (또한 Pro 버전도 지원할 예정이며, V2.5 을 완료한 후 해당 양자화 작업에 착수합니다): https://github.com/ggml-org/llama.cpp/pull/22493

또한 HF 에 일부 양자화 모델을 올렸습니다 (https://huggingface.co/AesSedai/MiMo-V2.5-GGUF). Q8_0 과 제가慣用的하게 사용하는 MoE 최적화 양자화 모델도 포함되어 있습니다 (아직 익숙하지 않으신 분들을 위해 설명하자면, 대부분의 모델에서 Q8_0 또는 Q6_K 를 사용하며 FFN 을 다운사이징한 것입니다). Q4_K_M 에서는 이상한 NAN 문제가 발생하고 있어 조사 중인데, 47 번째 레이어의 ffn_down_exps 텐서 때문인 것으로 보입니다 (수정: NAN 문제를 해결하여 작동하는 Q4_K_M 을 다시 업로드합니다!).

Bartowski, Ubergarm, Unsloth, 그리고 우리 사랑스러운 llama 양자화 카르텔의 나머지 분들도 곧 자신들의 양자화 모델을 출시하실 예정입니다.

하지만 이것이 병합 전 버전이므로 일부 변경 사항이 있을 수 있습니다. 그러나Hopefully 이 PR 이 검토되어 곧 병합되기를 바랍니다. 문제가 있다면 알려주세요.

AI 자동 생성 콘텐츠

원문 바로가기

MiMo-V2.5-GGUF (미리보기 제공)

요약

핵심 포인트

댓글