본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 17. 02:53

Glimmer 1 - Glint Research. 기초적인 10,000 파라미터 언어 모델

요약

Glint Research에서 공개한 10,000 파라미터 규모의 초소형 언어 모델 Glimmer-1을 소개합니다. FineWeb-Edu 데이터셋 500K 토큰을 사용하여 학습되었으며, 표준 Llama 아키텍처를 기반으로 합니다.

핵심 포인트

  • 10k 파라미터 규모의 초소형 베이스 모델
  • FineWeb-Edu 500K 토큰으로 학습 완료
  • 512 토큰의 컨텍스트 윈도우 제공
  • 표준 Llama 아키텍처 및 GQA 적용

우리는 FineWeb-Edu의 500K 토큰으로 학습된 10k 베이스 모델인 Glimmer를 소개합니다.
컨텍스트 윈도우 (context window)는 512 토큰입니다.
아키텍처 (arch)는 표준 llama (LlamaForCausalLM)입니다.
16 hidden dims
2 layers
4 attention heads
1 KV head (GQA)
나머지는 https://huggingface.co/Glint-Research/Glimmer-1-Base 에서 확인할 수 있습니다.
이 게시물이 유지되는 동안 무엇이든 물어보세요 (AMA). 즐거운 시간 되세요!
submitted by /u/Available-Craft-5795
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0