lfm2.5와 경쟁하기 위해 오픈 라이선스를 적용한 새로운 350M 모델 제작
요약
Granite 4 350M을 기반으로 지속적 사전 학습과 커스텀 SFT를 거친 Fijik 2.0 350M 모델이 출시되었습니다. lfm2.5의 커스텀 라이선스에 대응하기 위해 Apache-2.0 오픈 라이선스를 채택했습니다.
핵심 포인트
- Granite 4 350M 기반의 소규모 언어 모델(SLM) 개발
- 6B 토큰 지속적 사전 학습 및 혼합 추론 SFT 적용
- lfm2.5와 경쟁하기 위한 Apache-2.0 오픈 라이선스 적용
- 350M 파라미터 규모로 웹 검색 도구와의 병행 사용 권장
나노 LLM (nano LLM)이라는 아이디어가 마음에 들었고, 실제로 직접 하나 개발하며 스스로에게 도전해 보기로 했습니다. 제가 이 모델을 개발했다는 점을 염두에 두시고, 직접 조사와 벤치마크 (benchmarks)를 수행하시기 바랍니다. 이 서브레딧에 글을 올린 지 꽤 되었는데, 그동안 실력을 쌓느라 바빴습니다. 여러 LLM (Large Language Models)을 위해 학습 (trained), 미세 조정 (fine tuned), 데이터 생성 (generated data)을 진행해 왔으나, 만족스럽지 않아 출시하지는 않았습니다. 2.0 버전은 처음부터 (from scratch) 만든 것은 아니지만, 처음부터 만드는 작업도 진행 중입니다.
스크린샷에서 실수로 로컬에 fijik2.5라는 이름으로 저장했습니다! 이 모델은 HF (Hugging Face)에 bf16 형식으로 업로드된 것과 동일한 모델입니다. 죄송합니다.
계속 작업한 끝에 드디어 Granite 4 350M을 기반으로 한 Fijik 2.0 350m을 출시할 수 있게 되었습니다. 이 모델은 2025년 8월 지식 컷오프 (knowledge cutoff)를 가진 약 6B 개의 토큰 (tokens)으로 지속적 사전 학습 (continually pre trained)되었으며, 이후 혼합 추론 (mixed reasoning) 노력이 포함된 커스텀 SFT (Supervised Fine-Tuning) 코퍼스 (corpus)로 사후 학습 (post trained)되었습니다. 또한, lfm2.5와 비교한 모델의 출력 샘플도 몇 가지 포함했습니다. 350M 파라미터 (parameters) 규모에서는 지식이 많을 수 없으므로, 웹 검색 (web search)이나 유사한 도구와 함께 사용해야 한다는 점을 유념하세요.
기본적으로 lfm2.5는 정말 멋지지만, 저는 커스텀 라이선스 (custom license)가 마음에 들지 않습니다. fijik은 Apache-2.0을 사용하며, 이전 모델(들)과 달리 실제로 벤치마크를 수행했습니다. 벤치마크 결과는 HF 리드미 (readme)에서 확인할 수 있습니다!
질문이 있다면 언제든 편하게 물어봐 주세요. 정말 열심히 작업했고, 솔직히 만족스럽습니다.
Safetensors: https://huggingface.co/Pinkstack/fijik-2.0-350m-sft
GGUF: https://huggingface.co/Pinkstack/fijik-2.0-350m-sft-GGUF (bf16 미만으로 실행하는 것은 권장하지 않습니다. lm-studio 등에서 채팅 포맷 (chat format)을 수동으로 설정해야 할 수도 있습니다. 이 모델은 표준 ChatML을 사용하지 않으므로 ChatML로는 작동하지 않습니다.)
좋은 하루 되세요. 다시 한번 질문이 있다면 언제든 연락해 주세요. <3
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기