[신규] Supra-50M 출시!
요약
SupraLabs가 Llama 아키텍처 기반의 소형 언어 모델인 Supra-50M을 출시했습니다. 50M 파라미터 규모임에도 200억 개의 토큰으로 학습되어 주요 벤치마크에서 경쟁력 있는 성능을 보여줍니다.
핵심 포인트
- Llama 스타일 아키텍처 기반의 50M 파라미터 소형 모델
- 200억 개의 고품질 웹 텍스트 토큰으로 학습 완료
- 동급 규모 대비 우수한 벤치마크 성능 달성
- 향후 124M, 350M 규모의 모델 확장 계획 발표
SupraLabs가 새로운 모델을 출시했습니다! - Supra-50M
Supra-50M은 SupraLabs가 Llama 스타일의 아키텍처 (Architecture)를 사용하여 처음부터 구축한 소형 50M 파라미터 (Parameter) 인과적 언어 모델 (Causal Language Model, BASE 및 INSTRUCT 버전)으로, 200억 개의 고품질 교육용 웹 텍스트 토큰 (Token)으로 학습되었습니다. 유사한 오픈 모델들보다 훨씬 작음에도 불구하고, 여러 주요 벤치마크 (Benchmark)에서 경쟁력 있거나 우수한 결과를 달성했습니다. 이는 우리의 첫 번째 SupraLabs Scaling Up Plan 모델입니다.
🤗 Supra-50M-Base | Supra-50M-Instruct
다음 단계는 무엇인가요?
- Supra-124M — Base, Chat, Experimental Reasoning
- Supra-350M — Base, Chat, Reasoning, Coding
🏆 벤치마크 (Benchmarks)
| 벤치마크 (Benchmark) | Supra-50M (자사) | GPT-2 (124M) | SmolLM-135M | OpenELM-270M |
|---|---|---|---|---|
| 파라미터 (Parameters) | 50M | 124M (2.5×) | 135M (2.7×) | 270M (5.4×) |
| ... |
🧠 아키텍처 (Architecture) 및 하이퍼파라미터 (Hyperparameters)
| 하이퍼파라미터 (Hyperparameter) | 값 (Value) |
|---|---|
| 아키텍처 (Architecture) | Llama (decoder-only transformer) |
| ... |
📚 학습 데이터 (Training Data)
| 속성 (Property) | 값 (Value) |
|---|---|
| 데이터셋 (Dataset) | HuggingFaceFW/fineweb-edu (sample-100BT) |
| ... |
🔤 토크나이저 (Tokenizer)
fineweb-edu (sample-10BT)에서 샘플링된 500,000개의 문서로 처음부터 학습된 커스텀 Byte-Level BPE 토크나이저입니다.
| 속성 (Property) | 값 (Value) |
|---|---|
| 유형 (Type) | ByteLevelBPETokenizer |
| ... |
⚙️ 학습 설정 (Training Configuration)
| 파라미터 (Parameter) | 값 (Value) |
|---|---|
| 에포크 (Epochs) | 1 |
| ... |
🚀 추론 (Inference) — Instruct 버전
import os, warnings
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
warnings.filterwarnings("ignore", category=UserWarning, module="transformers")
import torch
from transformers import pipeline, AutoTokenizer, logging
logging.set_verbosity_error()
MODEL_ID = "SupraLabs/Supra-50M-Instruct"
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False)
pipe = pipeline(
"text-generation",
model=MODEL_ID,
tokenizer=tokenizer,
device_map="auto",
torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32
)
def build_prompt(instruction, input_text=""):
if input_text.strip():
return (
"Below is an instruction that describes a task, paired with an input "
"that provides further context. Write a response that appropriately "
"completes the request.\n\n"
f"### Instruction:\n{instruction}\n\n"
f"### Input:\n{input_text}\n\n### Response:\n"
)
return (
"Below is an instruction that describes a task."
요청을 적절히 완료하는 응답을 작성하세요.
SupraLabs Scaling Up Plan의 첫 번째 모델입니다. 피드백을 환영합니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기