본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 05. 03. 00:41

Let's build GPT: from scratch, in code, spelled out.

요약

이 강의는 'Attention is All You Need' 논문과 OpenAI의 GPT-2/GPT-3 아키텍처를 기반으로 Generative Pretrained Transformer (GPT) 모델을 처음부터 코드로 구현하는 과정을 다룹니다. ChatGPT와 같은 최신 LLM의 작동 원리를 깊이 있게 이해할 수 있도록, 오토회귀 언어 모델링 프레임워크, 텐서 기초, PyTorch nn 사용법 등을 단계적으로 학습합니다. 강사는 학생들이 충분한 배경 지식을 갖추도록 이전 강의(makemore 등) 시청을 권장하며, 실습 환경과 관련 자료를 풍부하게 제공하고 있습니다.

핵심 포인트

  • GPT 모델의 핵심 아키텍처 (Attention is All You Need 기반)를 코드로 구현하는 방법을 배운다.
  • 오토회귀 언어 모델링(Autoregressive Language Modeling) 프레임워크와 텐서 연산의 기초 지식을 습득한다.
  • PyTorch nn 모듈을 사용하여 복잡한 신경망 구조를 구축하고 학습시키는 실질적인 경험을 제공한다.
  • 실습용 Google Colab 및 GitHub 저장소를 통해 따라 하기 쉬운 환경과 풍부한 자료를 제공받는다.

비디오: Let's build GPT: from scratch, in code, spelled out.
채널: Andrej Karpathy
시각: 116m

우리는 "Attention is All You Need" 논문과 OpenAI 의 GPT-2/GPT-3 을 따르며 Generatively Pretrained Transformer (GPT) 를 구축합니다. ChatGPT 는 세상을 강타하고 있으며 이에 대한 연결고리에 대해 논의합니다. GitHub Copilot, 그 자체도 GPT 인 것이 우리를 도와서 GPT 를 작성하는 과정을 관찰합니다 (meta :D!). 저는 사람들이 이 비디오에서 당연시 여기는 오토리귀시브 언어 모델링 프레임워크와 텐서의 기초, PyTorch nn 의 기초에 익숙해지기 위해 이전 makemore 비디오들을 시청할 것을 권장합니다.

링크:

보충 링크:

추천 연습:

  • EX1: n 차원 텐서 마스터십 챌린지: HeadMultiHeadAttention 을 하나의 클래스로 결합하여 모든 헤드를 병렬로 처리하는 것을 구현하세요. 헤드를 또 다른 배치 차원으로 취급합니다 (답안은 nanoGPT 에 있음).
  • EX2: GPT 를 여러분이 선택한 데이터셋으로 훈련하세요! 어떤 다른 데이터를 말다발하기 (blabber) 위한 것이 재미있을까요? (재미있는 고급 제안: 두 수를 더하는 GPT 를 훈련해보세요. 즉, a+b=c 입니다. c 의 숫자를 역순으로 예측하는 것이 도움이 될 수 있습니다.)

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0