본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 05. 05. 12:27

언어 모델링의 글자별 소개: makemore 구축

요약

이 비디오는 Andrej Karpathy가 PyTorch를 사용하여 bigram 문자 수준 언어 모델(makemore)을 구축하는 과정을 소개합니다. 학습자는 torch.Tensor의 세부 사항과 신경망 평가 프레임워크 전반에 걸쳐 깊이 있는 이해를 얻게 됩니다. 이 프로젝트는 단순한 통계적 접근 방식부터 시작하여, 나중에 GPT와 같은 복잡한 Transformer 모델로 확장할 수 있는 견고한 기초를 제공합니다.

핵심 포인트

  • PyTorch의 torch.Tensor 사용법과 신경망 평가에 필요한 세부 사항을 학습합니다.
  • 언어 모델링의 전체 프레임워크(훈련, 샘플링, 손실 계산)를 이해하는 것이 목표입니다.
  • bigram 모델 구축을 통해 언어 모델링의 기본 원리를 실습하고, 이후 trigram 및 Transformer로 확장할 수 있습니다.
  • 데이터셋 분할(train/dev/test)의 중요성을 인식하고, 개발 세트와 테스트 세트를 사용하여 모델 성능을 평가하는 방법을 배웁니다.

비디오: 언어 모델링의 글자별 소개: makemore 구축
채널: Andrej Karpathy
지속 시간: 117m

우리는 bigram character-level language model 을 구현하며, 이후 비디오에서는 GPT 와 같은 현대적 Transformer language model 로 이를 더 복잡하게 만들 것입니다. 이 비디오의 초점은 (1) torch.Tensor 와 그 세부 사항, 그리고 신경망을 효율적으로 평가하는 데 사용, (2) 모델 훈련, 샘플링, 손실 (예: 분류를 위한 negative log likelihood) 을 포함하는 언어 모델링의 전체 프레임워크입니다.

링크:

실습을 위한 유용한 링크:

과제:
E01: trigram language model 을 훈련시키세요, 즉 2 개의 글자를 입력으로 삼아 3 번째 글자를 예측하세요. 카운팅 또는 신경망을 사용하셔도 됩니다. 손실을 평가하세요; bigram 모델보다 개선되었나요?
E02: 데이터셋을 무작위로 80% train set, 10% dev set, 10% test set 으로 나누세요. bigram 과 trigram 모델을 훈련할 때 오직 training set 만 사용하세요. dev 와 test split 에 대해 평가하세요. 무엇을 볼 수 있나요?
E03: dev set 을 사용하여 smoothin 의 강도를 조정하세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0