MaralGPT Mythos 9B 2606이 방금 출시되었습니다. 작동 방식은 다음과 같습니다.
요약
Qwen 3.5를 기반으로 미세 조정된 오픈 소스 모델 MaralGPT Mythos 9B 2606이 출시되었습니다. 이 모델은 검열이 없는 개방적인 특성을 가지며, 100만 토큰의 확장된 컨텍스트 윈도우를 지원합니다.
핵심 포인트
- Qwen 3.5 기반의 오픈 소스 온디바이스 모델
- 검열 없는 개방적인 미세 조정(Finetuning) 적용
- 100만 토큰의 동적 컨텍스트 윈도우 지원
- SOTA 모델 데이터 5억 개 토큰으로 학습 및 높은 벤치마크 성능
Fable가 미국 외 지역에 대해 폐쇄되었고, 설령 다시 운영된다 하더라도 저 같은 사람들은 아마 조만간 모델을 사용할 수 없을 것입니다 (저는 이란인이라 대부분의 미국 플랫폼에서 KYC(본인 인증) 절차를 진행할 수 없기 때문입니다). 그래서 우리는 중국인들이 하는 것처럼 "온 디바이스 오픈 소스 (On Device Open Source)" 모델을 찾는 방법을 찾아냈습니다.
이 모델은 "Qwen 3.5"를 기반으로 하며, Fable이 보호(safeguarded)했던 모든 것에 대해 완전히 이단적(heretic)이고 개방적이도록 미세 조정(finetuned)되었습니다. 또한 컨텍스트 윈도우(context window)가 100만 토큰으로 확장되었습니다 (이는 Qwen 3.5의 또 다른 내장 기능이며, 이후에는 컨텍스트 윈도우 측면에서 동적으로 작동합니다).
이 모델은 최고의 SOTA(State-of-the-Art) 모델들로부터 얻은 5억 개 이상의 토큰으로 미세 조정되었으며, 벤치마킹(benchmarking) 성능이 매우 뛰어납니다. 저희 링크는 다음과 같습니다:
원본 모델: https://huggingface.co/MaralGPT/MaralGPT-Mythos-9B-2606
GGUF 파일: https://huggingface.co/MaralGPT/MaralGPT-Mythos-9B-2606-GGUF
중요 참고 사항: 2비트 양자화(2 bit quantization)는 제대로 작동하지 않습니다.
그리고 저희의 벤치마크 결과입니다:
https://preview.redd.it/nnqs21ayc7ah1.png?width=1744&format=png&auto=webp&s=87b33471665a68653d6239fede283ef64edfdaef
더 상세한 벤치마크 (MMLU STEM 추가됨):
https://preview.redd.it/b9326x11d7ah1.png?width=1232&format=png&auto=webp&s=82a5933d6e376a4d9c3a0673f30d00643f3fec54
혹시 이 모델을 호스팅하는 데 협력할 분이 계시다면, 저는 환영합니다. 여기나 huggingface를 통해 저와 연락을 유지하실 수 있습니다.
즐거운 프롬프팅(Happy prompting) 되세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기