본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:34

안녕하세요 Reddit 여러분, OpenAI의 GPT2 스타일 Transformer를 재구축하는 방법을 가르치는 '나만의 LLM 만들기'

요약

수학이나 머신러닝 사전 지식이 없어도 GPT2 스타일의 트랜스포머를 직접 구축할 수 있는 워크숍 가이드입니다. 기초적인 퍼셉트론부터 최신 LLM 아키텍처, 사전 학습 및 지시어 튜닝까지 전 과정을 코드와 엑셀 예제로 다룹니다.

핵심 포인트

  • GPT2 스타일 트랜스포머 아키텍처의 밑바닥부터 구현 방법 제공
  • ML 기초, 심층 신경망, 트랜스포머 구조 및 학습 프로세스 포함
  • PyTorch, CUDA, Triton 등 GPU 코딩 실습 포함
  • 데이터 전처리, 토크나이저, 어텐션 메커니즘 등 핵심 요소 학습
  • 지시어 튜닝 및 강화 학습(SimPO) 등 최신 기법 안내

안녕하세요 인터넷 친구 여러분, 수학이나 머신러닝 (ML) 사전 지식 없이도 자신만의 LLM을 구축하는 워크숍을 녹화했습니다. 워크숍이 끝날 때쯤이면 사람들은 자신만의 작동하는 OpenAI GPT2 스타일의 트랜스포머 (Transformer)를 갖게 될 것이며, 이것이 이 서브레딧(sub)에 유의미한 내용이 되기를 바랍니다. 이 워크숍은 머신러닝 (Machine Learning) 기초부터 심층 신경망 (Deep Neural Networks), 트랜스포머 (Transformer) 아키텍처, 그리고 사전/사후 학습 (Pre/Post-training)까지 모든 것을 다룹니다. 유일한 전제 조건은 코드와 엑셀 (Excel) 예제를 통해 배우는 것에 익숙해지는 것입니다.

대규모 언어 모델 (Large Language Models) 샘플링
대규모 언어 모델 (Large Language Model) 역공학 (Reverse Engineering)
퍼셉트론 (Perceptrons): wx+b
활성화 함수 (Activation Functions): ReLU, GELU, SwiGLU
GPU 코딩 (GPU Coding): PyTorch, torch.compile(), fused kernels, CUDA, Triton
MLPs/FFNs: 다중 입력 (Multi-input), 다층 퍼셉트론 (Multi-Layer Perceptrons), 피드포워드 네트워크 (Feed-Forward Networks)
손실 함수 (Loss Functions): 잔차 오차 (Residual errors), RMSE, 교차 엔트로피 (Cross Entropy), 손실 경관 (Loss Landscapes)
역전파 (Backpropagation): 학습 루프 (Training loops), 옵티마이저 (Optimizers), 학습률 (Learning Rate), 배치 크기 (Batch Size)
모델 저장 및 로드 (Saving & Loading Models)
초기화 (Initialization): Kaiming, Glorot
잔차 (Residuals): 덧셈 (Addition), 스케일링 (Scaling), 게이팅 (Gated), 연결 (Concatenation)
정규화 (Normalization): Pre-norm vs. Post-norm, RMSNorm, BatchNorm, LayerNorm
규제 (Regularization): 드롭아웃 (Dropout), 그래디언트 클리핑 (Gradient Clipping), 가중치 감쇠 (Weight Decay)
SoftMax
토크나이저 (Tokenizers): 문자 단위 (By Character), 단어 단위 (By Word), BPE, SentencePiece
임베딩 (Embeddings): 절대적 vs. 학습된 (Absolute vs. Learned), 정현파 vs. RoPE (Sinusoidal vs. RoPE)
어텐션 (Attention): MHA, GQA, MQA, MLA
트랜스포머 (Transformers) 사전 학습 (Pre-training): 데이터 소스 (Data Sources), 데이터셋 (Datasets), HTML 클리닝 (HTML Cleaning), 품질 필터링 (Quality Filtering), 샤딩 (Sharding)
평가 (Evaluation): 리더보드 (Leaderboards), 벤치마크 (Benchmarks), 검증기 vs. LLM-as-Judge (Verifiers vs LLM-as-Judge)
지시어 튜닝 (Instruction Tuning): Alpaca 및 기타 형식, Self Instruct, 역량 (Capabilities)
강화 학습 (Reinforcement Learning): 정책 최적화 (Policy Optimization), SimPO
다루지 않은 내용: 스케일링 (Scaling)

각 섹션은 개념을 가르치는 슬라이드, 수학적 직관을 기르기 위한 수작업 엑셀 (Excel) 과정, 그리고 코딩 예제로 구성되어 있습니다. 목표는 현대적 LLM 개발의 모든 부분을 완전히 이해하는 것입니다. 지난달 샌프란시스코 (San Francisco)에서 이 워크숍을 대면으로 진행했으며, 온라인으로 시청하는 방식이 모두에게 잘 맞기를 바랍니다. 영상 시청을 선호하지 않는다면, 슬라이드와 연습 문제를 가져가서 스스로 학습할 수도 있습니다.

/u/JustinAngel 님이 r/OpenAI 에 게시함 [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0