YouTube요약2026. 05. 05. 12:27

언어 모델링의 글자별 소개: makemore 구축

요약

이 비디오는 Andrej Karpathy가 PyTorch를 사용하여 bigram 문자 수준 언어 모델(makemore)을 구축하는 과정을 소개합니다. 학습자는 torch.Tensor의 세부 사항과 신경망 평가 프레임워크 전반에 걸쳐 깊이 있는 이해를 얻게 됩니다. 이 프로젝트는 단순한 통계적 접근 방식부터 시작하여, 나중에 GPT와 같은 복잡한 Transformer 모델로 확장할 수 있는 견고한 기초를 제공합니다.

핵심 포인트

PyTorch의 torch.Tensor 사용법과 신경망 평가에 필요한 세부 사항을 학습합니다.
언어 모델링의 전체 프레임워크(훈련, 샘플링, 손실 계산)를 이해하는 것이 목표입니다.
bigram 모델 구축을 통해 언어 모델링의 기본 원리를 실습하고, 이후 trigram 및 Transformer로 확장할 수 있습니다.
데이터셋 분할(train/dev/test)의 중요성을 인식하고, 개발 세트와 테스트 세트를 사용하여 모델 성능을 평가하는 방법을 배웁니다.

비디오: 언어 모델링의 글자별 소개: makemore 구축
채널: Andrej Karpathy
지속 시간: 117m

우리는 bigram character-level language model 을 구현하며, 이후 비디오에서는 GPT 와 같은 현대적 Transformer language model 로 이를 더 복잡하게 만들 것입니다. 이 비디오의 초점은 (1) torch.Tensor 와 그 세부 사항, 그리고 신경망을 효율적으로 평가하는 데 사용, (2) 모델 훈련, 샘플링, 손실 (예: 분류를 위한 negative log likelihood) 을 포함하는 언어 모델링의 전체 프레임워크입니다.

링크:

makemore on github: https://github.com/karpathy/makemore
이 비디오에서 만든 jupyter notebook: https://github.com/karpathy/nn-zero-to-hero/blob/master/lectures/makemore/makemore_part1_bigrams.ipynb
나의 웹사이트: https://karpathy.ai
나의 트위터: https://twitter.com/karpathy
(새로운) Neural Networks: Zero to Hero series Discord 채널: https://discord.gg/3zy8kqD9Cp, 유튜브 댓글을 넘어 더 대화하고 싶으신 분들을 위한 것입니다

실습을 위한 유용한 링크:

CS231n 의 Python + Numpy 튜토리얼 https://cs231n.github.io/python-numpy-tutorial/ . 이 비디오에서는 numpy.array 대신 torch.tensor 를 사용합니다. 그들의 설계 (예: broadcasting, 데이터 타입 등) 는 매우 유사하므로 하나를 연습하는 것은 거의 다른 것을 연습하는 것과 같습니다. 다만 API 에는 주의해야 합니다 - 함수가 어떻게 명명되었는지, 어떤 인수들을 받는지 등 - 이러한 세부 사항은 다를 수 있습니다.
PyTorch 의 Tensor 튜토리얼 https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html
PyTorch 의 다른 Tensor 소개 https://pytorch.org/tutorials/beginner/nlp/pytorch_tutorial.html

과제:
E01: trigram language model 을 훈련시키세요, 즉 2 개의 글자를 입력으로 삼아 3 번째 글자를 예측하세요. 카운팅 또는 신경망을 사용하셔도 됩니다. 손실을 평가하세요; bigram 모델보다 개선되었나요?
E02: 데이터셋을 무작위로 80% train set, 10% dev set, 10% test set 으로 나누세요. bigram 과 trigram 모델을 훈련할 때 오직 training set 만 사용하세요. dev 와 test split 에 대해 평가하세요. 무엇을 볼 수 있나요?
E03: dev set 을 사용하여 smoothin 의 강도를 조정하세요.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델링의 글자별 소개: makemore 구축

요약

핵심 포인트

댓글