언어 모델링의 글자별 소개: makemore 구축
요약
이 비디오는 Andrej Karpathy가 PyTorch를 사용하여 bigram 문자 수준 언어 모델(makemore)을 구축하는 과정을 소개합니다. 학습자는 torch.Tensor의 세부 사항과 신경망 평가 프레임워크 전반에 걸쳐 깊이 있는 이해를 얻게 됩니다. 이 프로젝트는 단순한 통계적 접근 방식부터 시작하여, 나중에 GPT와 같은 복잡한 Transformer 모델로 확장할 수 있는 견고한 기초를 제공합니다.
핵심 포인트
- PyTorch의 torch.Tensor 사용법과 신경망 평가에 필요한 세부 사항을 학습합니다.
- 언어 모델링의 전체 프레임워크(훈련, 샘플링, 손실 계산)를 이해하는 것이 목표입니다.
- bigram 모델 구축을 통해 언어 모델링의 기본 원리를 실습하고, 이후 trigram 및 Transformer로 확장할 수 있습니다.
- 데이터셋 분할(train/dev/test)의 중요성을 인식하고, 개발 세트와 테스트 세트를 사용하여 모델 성능을 평가하는 방법을 배웁니다.
비디오: 언어 모델링의 글자별 소개: makemore 구축
채널: Andrej Karpathy
지속 시간: 117m
우리는 bigram character-level language model 을 구현하며, 이후 비디오에서는 GPT 와 같은 현대적 Transformer language model 로 이를 더 복잡하게 만들 것입니다. 이 비디오의 초점은 (1) torch.Tensor 와 그 세부 사항, 그리고 신경망을 효율적으로 평가하는 데 사용, (2) 모델 훈련, 샘플링, 손실 (예: 분류를 위한 negative log likelihood) 을 포함하는 언어 모델링의 전체 프레임워크입니다.
링크:
- makemore on github: https://github.com/karpathy/makemore
- 이 비디오에서 만든 jupyter notebook: https://github.com/karpathy/nn-zero-to-hero/blob/master/lectures/makemore/makemore_part1_bigrams.ipynb
- 나의 웹사이트: https://karpathy.ai
- 나의 트위터: https://twitter.com/karpathy
- (새로운) Neural Networks: Zero to Hero series Discord 채널: https://discord.gg/3zy8kqD9Cp, 유튜브 댓글을 넘어 더 대화하고 싶으신 분들을 위한 것입니다
실습을 위한 유용한 링크:
- CS231n 의 Python + Numpy 튜토리얼 https://cs231n.github.io/python-numpy-tutorial/ . 이 비디오에서는 numpy.array 대신 torch.tensor 를 사용합니다. 그들의 설계 (예: broadcasting, 데이터 타입 등) 는 매우 유사하므로 하나를 연습하는 것은 거의 다른 것을 연습하는 것과 같습니다. 다만 API 에는 주의해야 합니다 - 함수가 어떻게 명명되었는지, 어떤 인수들을 받는지 등 - 이러한 세부 사항은 다를 수 있습니다.
- PyTorch 의 Tensor 튜토리얼 https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html
- PyTorch 의 다른 Tensor 소개 https://pytorch.org/tutorials/beginner/nlp/pytorch_tutorial.html
과제:
E01: trigram language model 을 훈련시키세요, 즉 2 개의 글자를 입력으로 삼아 3 번째 글자를 예측하세요. 카운팅 또는 신경망을 사용하셔도 됩니다. 손실을 평가하세요; bigram 모델보다 개선되었나요?
E02: 데이터셋을 무작위로 80% train set, 10% dev set, 10% test set 으로 나누세요. bigram 과 trigram 모델을 훈련할 때 오직 training set 만 사용하세요. dev 와 test split 에 대해 평가하세요. 무엇을 볼 수 있나요?
E03: dev set 을 사용하여 smoothin 의 강도를 조정하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기