본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 05:36

SupraLabs가 Supra1.5-50M Base (Experimental)를 출시했습니다!

요약

SupraLabs가 Supra-50M-Base를 기반으로 컨텍스트 윈도우를 확장한 실험적 모델 Supra1.5-50M-base-exp를 출시했습니다. RoPE 스케일링을 통해 컨텍스트 길이를 1,024에서 5,120 토큰으로 늘렸으며, 향후 SFT 및 RL 작업을 위한 베이스 모델 구축을 목표로 합니다.

핵심 포인트

  • RoPE 스케일링을 통해 컨텍스트 윈도우를 5,120 토큰으로 확장
  • 30억 개의 CPT 토큰을 사용한 지속적 사전 학습(Continued Pretraining) 수행
  • 향후 Instruct 및 더 큰 파라미터 모델 출시 계획
  • 전체 가중치 업데이트를 통한 베이스 모델 최적화

SupraLabs가 Supra1.5-50M Base (Experimental)를 출시했습니다!

안녕하세요 r/LocalLLaMA 여러분! 새로운 실험적 모델인 Supra1.5-50M-base-exp를 가지고 돌아왔습니다. 이 모델은 Supra-50M-Base를 기반으로 한 지속적 사전 학습 (Continued Pretraining) 결과물입니다. 이번 출시의 주요 목표는 간단합니다. RoPE 스케일링 (RoPE scaling)을 사용하여 컨텍스트 윈도우 (Context Window)를 1,024에서 5,120 토큰으로 확장하는 동시에, 향후 더 나은 SFT (Supervised Fine-Tuning) 및 RL (Reinforcement Learning) 다운스트림 작업을 위해 가중치 (Weights)를 준비하는 것입니다.

🤗 Supra-1.5-50M-base-exp
이것은 인스트럭트 (Instruct) 모델이 아닙니다. 향후 파인튜닝 (Fine-tuning)을 위한 베이스 (Base) 모델입니다.

다음 계획은 무엇인가요?

  • Supra1.5-50M-Instruct
  • Supra-124M — Base, Chat, Reasoning

🧠 아키텍처 (Architecture)
기존 Supra-50M 아키텍처와 토크나이저 (Tokenizer)를 그대로 사용하며, 컨텍스트 윈도우만 더 커졌습니다:

사양 (Specification)값 (Value)
아키텍처 (Architecture)LlamaForCausalLM
파라미터 (Parameters)~50M
어휘 크기 (Vocabulary Size)32,000
은닉 크기 (Hidden Size)512
레이어 (Layers)12
어텐션 헤드 (Attention Heads)8 (4 KV heads, GQA)
컨텍스트 길이 (Context Length)5,120 토큰 (기존 1,024)
토크나이저 (Tokenizer)오리지널 Supra byte-level BPE

📚 학습 데이터 믹스 (Training Data Mix)
다음과 같은 구성으로 30억 개의 CPT 토큰을 사용했습니다:

소스 (Source)비중 (Weight)
도구 호출 (Tool Calling)30%
ChatML 대화 (Conversations)30%
사실적 텍스트 (기사, 에세이, 블로그)25%
수학 및 논리 문제 (Math & Logic Questions)15%

⚙️ 학습 세부 사항 (Training Details)
이것은 인스트럭션 파인튜닝 (Instruction Fine-tuning)이 아닌 CPT (Continued Pretraining)입니다. 패킹된 원시 텍스트 (Packed raw text)에 대한 표준 인과적 언어 모델 손실 (Causal LM loss)을 사용하였으며, LoRA를 사용하지 않고, 응답 마스킹 (Response masking) 없이 전체 가중치 업데이트 (Full weight update)를 수행했습니다. 의도는 다음에 이어질 SFT 및 RL 실험을 위한 더 나은 베이스를 생성하는 것입니다.

🚀 빠른 시작
from transformers import pipeline
import torch
print("[*] Loading Supra-1.5-50M-base-exp...")
pipe = pipeline( "text-generation", model="SupraLabs/Supra-1.5-50M-base-exp", device_map="auto", torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32 )
def generate_text(prompt, max_new_tokens=150):
result = pipe( prompt, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.5, top_k=25, top_p=0.9, repetition_penalty=1.2, pad_token_id=pipe.tokenizer.pad_token_id, eos_token_id=pipe.tokenizer.eos_token_id )
return result[0]['generated_text']
print(generate_text("The importance of education is"))
Experimental release. Feedback welcome!
submitted by /u/Dangerous_Try3619
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0