Let's build GPT: from scratch, in code, spelled out.
요약
이 강의는 'Attention is All You Need' 논문과 OpenAI의 GPT-2/GPT-3 아키텍처를 기반으로 Generative Pretrained Transformer (GPT) 모델을 처음부터 코드로 구현하는 과정을 다룹니다. ChatGPT와 같은 최신 LLM의 작동 원리를 깊이 있게 이해할 수 있도록, 오토회귀 언어 모델링 프레임워크, 텐서 기초, PyTorch nn 사용법 등을 단계적으로 학습합니다. 강사는 학생들이 충분한 배경 지식을 갖추도록 이전 강의(makemore 등) 시청을 권장하며, 실습 환경과 관련 자료를 풍부하게 제공하고 있습니다.
핵심 포인트
- GPT 모델의 핵심 아키텍처 (Attention is All You Need 기반)를 코드로 구현하는 방법을 배운다.
- 오토회귀 언어 모델링(Autoregressive Language Modeling) 프레임워크와 텐서 연산의 기초 지식을 습득한다.
- PyTorch nn 모듈을 사용하여 복잡한 신경망 구조를 구축하고 학습시키는 실질적인 경험을 제공한다.
- 실습용 Google Colab 및 GitHub 저장소를 통해 따라 하기 쉬운 환경과 풍부한 자료를 제공받는다.
비디오: Let's build GPT: from scratch, in code, spelled out.
채널: Andrej Karpathy
시각: 116m
우리는 "Attention is All You Need" 논문과 OpenAI 의 GPT-2/GPT-3 을 따르며 Generatively Pretrained Transformer (GPT) 를 구축합니다. ChatGPT 는 세상을 강타하고 있으며 이에 대한 연결고리에 대해 논의합니다. GitHub Copilot, 그 자체도 GPT 인 것이 우리를 도와서 GPT 를 작성하는 과정을 관찰합니다 (meta :D!). 저는 사람들이 이 비디오에서 당연시 여기는 오토리귀시브 언어 모델링 프레임워크와 텐서의 기초, PyTorch nn 의 기초에 익숙해지기 위해 이전 makemore 비디오들을 시청할 것을 권장합니다.
링크:
- 비디오용 Google colab: https://colab.research.google.com/drive/1JMLa53HDuA-i7ZBmqV7ZnA3c_fvtXnx-?usp=sharing
- 비디오용 GitHub repo: https://github.com/karpathy/ng-video-lecture
- 지금까지의 Zero to Hero 시리즈 전체 플레이리스트: https://www.youtube.com/watch?v=VMj-3S1tku0&list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ
- nanoGPT repo: https://github.com/karpathy/nanoGPT
- 저의 웹사이트: https://karpathy.ai
- 저의 트위터: https://twitter.com/karpathy
- 우리의 Discord 채널: https://discord.gg/3zy8kqD9Cp
보충 링크:
- Attention is All You Need 논문: https://arxiv.org/abs/1706.03762
- OpenAI GPT-3 논문: https://arxiv.org/abs/2005.14165
- OpenAI ChatGPT 블로그 게시물: https://openai.com/blog/chatgpt/
- 모델을 훈련하고 있는 GPU 는 Lambda GPU Cloud 에서 제공받았습니다. 저는 클라우드에서 SSH 로 접속할 수 있는 온디맨드 GPU 인스턴스를 가장 쉽고 빠르게 시작하는 방법이라고 생각합니다: https://lambdalabs.com . 노트북으로 작업하시기를 선호하신다면, 오늘날 가장 쉬운 방법은 Google Colab 입니다.
추천 연습:
- EX1: n 차원 텐서 마스터십 챌린지:
Head와MultiHeadAttention을 하나의 클래스로 결합하여 모든 헤드를 병렬로 처리하는 것을 구현하세요. 헤드를 또 다른 배치 차원으로 취급합니다 (답안은 nanoGPT 에 있음). - EX2: GPT 를 여러분이 선택한 데이터셋으로 훈련하세요! 어떤 다른 데이터를 말다발하기 (blabber) 위한 것이 재미있을까요? (재미있는 고급 제안: 두 수를 더하는 GPT 를 훈련해보세요. 즉, a+b=c 입니다. c 의 숫자를 역순으로 예측하는 것이 도움이 될 수 있습니다.)
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기