lfm2.5와 경쟁하기 위해 오픈 라이선스를 적용한 새로운 350M 모델 제작

나노 LLM (nano LLM)이라는 아이디어가 마음에 들었고, 실제로 직접 하나 개발하며 스스로에게 도전해 보기로 했습니다. 제가 이 모델을 개발했다는 점을 염두에 두시고, 직접 조사와 벤치마크 (benchmarks)를 수행하시기 바랍니다. 이 서브레딧에 글을 올린 지 꽤 되었는데, 그동안 실력을 쌓느라 바빴습니다. 여러 LLM (Large Language Models)을 위해 학습 (trained), 미세 조정 (fine tuned), 데이터 생성 (generated data)을 진행해 왔으나, 만족스럽지 않아 출시하지는 않았습니다. 2.0 버전은 처음부터 (from scratch) 만든 것은 아니지만, 처음부터 만드는 작업도 진행 중입니다.

스크린샷에서 실수로 로컬에 fijik2.5라는 이름으로 저장했습니다! 이 모델은 HF (Hugging Face)에 bf16 형식으로 업로드된 것과 동일한 모델입니다. 죄송합니다.

계속 작업한 끝에 드디어 Granite 4 350M을 기반으로 한 Fijik 2.0 350m을 출시할 수 있게 되었습니다. 이 모델은 2025년 8월 지식 컷오프 (knowledge cutoff)를 가진 약 6B 개의 토큰 (tokens)으로 지속적 사전 학습 (continually pre trained)되었으며, 이후 혼합 추론 (mixed reasoning) 노력이 포함된 커스텀 SFT (Supervised Fine-Tuning) 코퍼스 (corpus)로 사후 학습 (post trained)되었습니다. 또한, lfm2.5와 비교한 모델의 출력 샘플도 몇 가지 포함했습니다. 350M 파라미터 (parameters) 규모에서는 지식이 많을 수 없으므로, 웹 검색 (web search)이나 유사한 도구와 함께 사용해야 한다는 점을 유념하세요.

기본적으로 lfm2.5는 정말 멋지지만, 저는 커스텀 라이선스 (custom license)가 마음에 들지 않습니다. fijik은 Apache-2.0을 사용하며, 이전 모델(들)과 달리 실제로 벤치마크를 수행했습니다. 벤치마크 결과는 HF 리드미 (readme)에서 확인할 수 있습니다!

질문이 있다면 언제든 편하게 물어봐 주세요. 정말 열심히 작업했고, 솔직히 만족스럽습니다.

Safetensors: https://huggingface.co/Pinkstack/fijik-2.0-350m-sft
GGUF: https://huggingface.co/Pinkstack/fijik-2.0-350m-sft-GGUF (bf16 미만으로 실행하는 것은 권장하지 않습니다. lm-studio 등에서 채팅 포맷 (chat format)을 수동으로 설정해야 할 수도 있습니다. 이 모델은 표준 ChatML을 사용하지 않으므로 ChatML로는 작동하지 않습니다.)

좋은 하루 되세요. 다시 한번 질문이 있다면 언제든 연락해 주세요. <3

Insights

lfm2.5와 경쟁하기 위해 오픈 라이선스를 적용한 새로운 350M 모델 제작

요약

핵심 포인트

댓글

Amazon 주식 팬 여러분, 7월 2일을 달력에 표시해 두세요

SpaceX 주식, Russell 1000 지수 편입 후 절실했던 승기를 잡다. 심화된 지수 집중도는 개인 투자자들이 여전히 가장 큰 손실을

AI에게 일자리를 빼앗기는 엔지니어와 사용하는 쪽으로 돌아선 사람의 결정적인 차이

에세이 작성을 위한 AI 활용법: 프로덕션급(Production-Grade) 글쓰기 스택 설계하기

SpaceX 주식, Russell 1000 지수 편입 후 절실했던 승기를 잡다. 심화된 지수 집중도는 개인 투자자들이 여전히 가장 큰 손실을

AI에게 일자리를 빼앗기는 엔지니어와 사용하는 쪽으로 돌아선 사람의 결정적인 차이

에세이 작성을 위한 AI 활용법: 프로덕션급(Production-Grade) 글쓰기 스택 설계하기