본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 23. 17:19

[신규] Supra-50M 출시!

요약

SupraLabs가 Llama 아키텍처 기반의 소형 언어 모델인 Supra-50M을 출시했습니다. 50M 파라미터 규모임에도 200억 개의 토큰으로 학습되어 주요 벤치마크에서 경쟁력 있는 성능을 보여줍니다.

핵심 포인트

  • Llama 스타일 아키텍처 기반의 50M 파라미터 소형 모델
  • 200억 개의 고품질 웹 텍스트 토큰으로 학습 완료
  • 동급 규모 대비 우수한 벤치마크 성능 달성
  • 향후 124M, 350M 규모의 모델 확장 계획 발표

SupraLabs가 새로운 모델을 출시했습니다! - Supra-50M

Supra-50M은 SupraLabs가 Llama 스타일의 아키텍처 (Architecture)를 사용하여 처음부터 구축한 소형 50M 파라미터 (Parameter) 인과적 언어 모델 (Causal Language Model, BASE 및 INSTRUCT 버전)으로, 200억 개의 고품질 교육용 웹 텍스트 토큰 (Token)으로 학습되었습니다. 유사한 오픈 모델들보다 훨씬 작음에도 불구하고, 여러 주요 벤치마크 (Benchmark)에서 경쟁력 있거나 우수한 결과를 달성했습니다. 이는 우리의 첫 번째 SupraLabs Scaling Up Plan 모델입니다.

🤗 Supra-50M-Base | Supra-50M-Instruct

다음 단계는 무엇인가요?

  • Supra-124M — Base, Chat, Experimental Reasoning
  • Supra-350M — Base, Chat, Reasoning, Coding

🏆 벤치마크 (Benchmarks)

벤치마크 (Benchmark)Supra-50M (자사)GPT-2 (124M)SmolLM-135MOpenELM-270M
파라미터 (Parameters)50M124M (2.5×)135M (2.7×)270M (5.4×)
...

🧠 아키텍처 (Architecture) 및 하이퍼파라미터 (Hyperparameters)

하이퍼파라미터 (Hyperparameter)값 (Value)
아키텍처 (Architecture)Llama (decoder-only transformer)
...

📚 학습 데이터 (Training Data)

속성 (Property)값 (Value)
데이터셋 (Dataset)HuggingFaceFW/fineweb-edu (sample-100BT)
...

🔤 토크나이저 (Tokenizer)

fineweb-edu (sample-10BT)에서 샘플링된 500,000개의 문서로 처음부터 학습된 커스텀 Byte-Level BPE 토크나이저입니다.

속성 (Property)값 (Value)
유형 (Type)ByteLevelBPETokenizer
...

⚙️ 학습 설정 (Training Configuration)

파라미터 (Parameter)값 (Value)
에포크 (Epochs)1
...

🚀 추론 (Inference) — Instruct 버전

import os, warnings
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
warnings.filterwarnings("ignore", category=UserWarning, module="transformers")

import torch
from transformers import pipeline, AutoTokenizer, logging
logging.set_verbosity_error()

MODEL_ID = "SupraLabs/Supra-50M-Instruct"
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, clean_up_tokenization_spaces=False)
pipe = pipeline(
    "text-generation",
    model=MODEL_ID,
    tokenizer=tokenizer,
    device_map="auto",
    torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32
)

def build_prompt(instruction, input_text=""): 
    if input_text.strip():
        return (
            "Below is an instruction that describes a task, paired with an input "
            "that provides further context. Write a response that appropriately "
            "completes the request.\n\n"
            f"### Instruction:\n{instruction}\n\n"
            f"### Input:\n{input_text}\n\n### Response:\n"
        )
    return (
        "Below is an instruction that describes a task."

요청을 적절히 완료하는 응답을 작성하세요.

SupraLabs Scaling Up Plan의 첫 번째 모델입니다. 피드백을 환영합니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0