YouTube요약2026. 05. 03. 00:41

Let's build GPT: from scratch, in code, spelled out.

요약

이 강의는 'Attention is All You Need' 논문과 OpenAI의 GPT-2/GPT-3 아키텍처를 기반으로 Generative Pretrained Transformer (GPT) 모델을 처음부터 코드로 구현하는 과정을 다룹니다. ChatGPT와 같은 최신 LLM의 작동 원리를 깊이 있게 이해할 수 있도록, 오토회귀 언어 모델링 프레임워크, 텐서 기초, PyTorch nn 사용법 등을 단계적으로 학습합니다. 강사는 학생들이 충분한 배경 지식을 갖추도록 이전 강의(makemore 등) 시청을 권장하며, 실습 환경과 관련 자료를 풍부하게 제공하고 있습니다.

핵심 포인트

GPT 모델의 핵심 아키텍처 (Attention is All You Need 기반)를 코드로 구현하는 방법을 배운다.
오토회귀 언어 모델링(Autoregressive Language Modeling) 프레임워크와 텐서 연산의 기초 지식을 습득한다.
PyTorch nn 모듈을 사용하여 복잡한 신경망 구조를 구축하고 학습시키는 실질적인 경험을 제공한다.
실습용 Google Colab 및 GitHub 저장소를 통해 따라 하기 쉬운 환경과 풍부한 자료를 제공받는다.

비디오: Let's build GPT: from scratch, in code, spelled out.
채널: Andrej Karpathy
시각: 116m

우리는 "Attention is All You Need" 논문과 OpenAI 의 GPT-2/GPT-3 을 따르며 Generatively Pretrained Transformer (GPT) 를 구축합니다. ChatGPT 는 세상을 강타하고 있으며 이에 대한 연결고리에 대해 논의합니다. GitHub Copilot, 그 자체도 GPT 인 것이 우리를 도와서 GPT 를 작성하는 과정을 관찰합니다 (meta :D!). 저는 사람들이 이 비디오에서 당연시 여기는 오토리귀시브 언어 모델링 프레임워크와 텐서의 기초, PyTorch nn 의 기초에 익숙해지기 위해 이전 makemore 비디오들을 시청할 것을 권장합니다.

링크:

비디오용 Google colab: https://colab.research.google.com/drive/1JMLa53HDuA-i7ZBmqV7ZnA3c_fvtXnx-?usp=sharing
비디오용 GitHub repo: https://github.com/karpathy/ng-video-lecture
지금까지의 Zero to Hero 시리즈 전체 플레이리스트: https://www.youtube.com/watch?v=VMj-3S1tku0&list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ
nanoGPT repo: https://github.com/karpathy/nanoGPT
저의 웹사이트: https://karpathy.ai
저의 트위터: https://twitter.com/karpathy
우리의 Discord 채널: https://discord.gg/3zy8kqD9Cp

보충 링크:

Attention is All You Need 논문: https://arxiv.org/abs/1706.03762
OpenAI GPT-3 논문: https://arxiv.org/abs/2005.14165
OpenAI ChatGPT 블로그 게시물: https://openai.com/blog/chatgpt/
모델을 훈련하고 있는 GPU 는 Lambda GPU Cloud 에서 제공받았습니다. 저는 클라우드에서 SSH 로 접속할 수 있는 온디맨드 GPU 인스턴스를 가장 쉽고 빠르게 시작하는 방법이라고 생각합니다: https://lambdalabs.com . 노트북으로 작업하시기를 선호하신다면, 오늘날 가장 쉬운 방법은 Google Colab 입니다.

Let's build GPT: from scratch, in code, spelled out.

요약

핵심 포인트

댓글