모든 과정이 하나의 저장소에 담겨 있을 때 LLM 모델을 처음부터 학습하기가 더 쉽습니다.

모든 과정이 단일 저장소(Repository)에 있을 때 LLM (Large Language Model) 모델을 처음부터 학습하는 법을 더 쉽게 배울 수 있습니다.

"Sıfırdan LLM modeli eğitmek"는 Transformer 언어 모델이 어떻게 생성되고, 학습되며, 저장되고, 텍스트 생성을 위해 어떻게 사용되는지를 배우기 위한 PyTorch 저장소입니다.

모델 코드를 데이터 다운로드, 전처리 (Pre-processing), 구성 (Configuration), 학습 (Training) 및 추론 (Inference) 스크립트와 결합함으로써, "종이 위에서 어텐션 메커니즘 (Attention Mechanism)을 이해하는" 단계에서 실행 가능한 학습 파이프라인 (Training Pipeline) 단계로 넘어갈 수 있도록 도와줍니다.

주요 특징:

• 처음부터 만드는 Transformer 구성 요소 – MLP, 어텐션 메커니즘 (Attention Mechanism), Transformer 블록 및 최종 모델을 위한 개별 PyTorch 모듈
• Pile 기반 데이터 경로 – 스크립트가 Pile 파일을 다운로드하고 JSONL.ZST 텍스트를 토큰화된 (Tokenized) HDF5 데이터셋으로 전처리합니다.
• 구성 가능한 학습 설정 – 모델 크기, 컨텍스트 길이 (Context Length), 헤드 (Heads), 블록 (Blocks), 배치 크기 (Batch Size), 학습률 (Learning Rate) 및 파일 경로가 https://t.co/BfFjIe9JYp 파일에 포함되어 있습니다.
• 하드웨어 가이드 – README 파일에서 13M 및 2B 규모의 학습 작업을 위한 일반적인 GPU들을 비교합니다.
• 추론 워크플로우 포함 – generate_text.py가 학습된 체크포인트 (Checkpoints)를 로드하고 예시 텍스트 출력을 생성합니다.

오픈 소스입니다 (MIT 라이선스).

답글 링크 👇
[IMG:https://pbs.twimg.com/media/HJpWetNXsAALi4h.jpg]

Insights

모든 과정이 하나의 저장소에 담겨 있을 때 LLM 모델을 처음부터 학습하기가 더 쉽습니다.

요약

핵심 포인트

댓글

Integer Holdings Non-GAAP EPS $1.60로 $0.22 상회, 매출 $464.11M로 $13.44M 상회

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트

Integer Holdings Non-GAAP EPS $1.60로 $0.22 상회, 매출 $464.11M로 $13.44M 상회

AI 탐지기가 arXiv 샘플에서 32%를 기록 — 이는 저작권 문제가 아닌 신호이다

중국 Chery, 한국 KG Mobility 지분 10% 확보를 위해 7,500만 달러 투자 예정

MiniMax H3를 3가지 입력 방식으로 구분하여 사용하기: 비동기 동영상 API 설계 포인트