makemore 구축하기 Part 2: MLP
요약
이 기술 기사는 Andrej Karpathy의 'makemore 구축하기 Part 2: MLP' 비디오를 기반으로 하며, 다층 퍼셉트론(MLP)을 사용하여 문자 단위 언어 모델을 구현하는 과정을 다룹니다. 이 과정에서 모델 학습, 학습률 최적화, 하이퍼파라미터 설정, 평가 지표 이해, 그리고 과소/과적합 방지 등 머신러닝의 핵심적인 기본 개념들을 심도 있게 소개합니다. 참가자들은 실제 데이터셋 구축부터 임베딩 레이어, 은닉층 및 출력층 구현에 이르기까지 전체 네트워크를 직접 코드로 작성하며 이론을 실습으로 연결하는 경험을 하게 됩니다.
핵심 포인트
- MLP(Multi-Layer Perceptron) 기반의 문자 단위 언어 모델 구현 방법 학습
- 머신러닝의 핵심 개념 (하이퍼파라미터, 과적합/과소적합, 평가 등)에 대한 실질적인 이해 증진
- PyTorch 텐서 구조 및 내부 작동 원리(storage, views)를 깊이 있게 파악하는 기회 제공
- 실제 연구 논문(Bengio et al. 2003)의 아이디어를 코드로 구현하며 이론적 지식을 확장할 수 있음
비디오: makemore 구축하기 Part 2: MLP
채널: Andrej Karpathy
지속 시간: 75 분
우리는 다층 퍼셉트론 (MLP) 기반 문자 단위 언어 모델을 구현합니다. 이 비디오에서는 머신러닝의 많은 기본 개념들 (예: 모델 학습, 학습률 튜닝, 하이퍼파라미터, 평가, 학습/검증/테스트 세트 분리, 과소/과적합 등) 을 소개합니다.
링크:
- makemore GitHub: https://github.com/karpathy/makemore
- 이 비디오에서 작성한 Jupyter 노트북: https://github.com/karpathy/nn-zero-to-hero/blob/master/lectures/makemore/makemore_part2_mlp.ipynb
- Colab 노트북 (새로움)!!!: https://colab.research.google.com/drive/1YIfmkftLrz6MPTOO9Vwqrop2Q5llHIGK?usp=sharing
- Bengio 외. 2003 MLP 언어 모델 논문 (PDF): https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
- 내 웹사이트: https://karpathy.ai
- 내 트위터: https://twitter.com/karpathy
- (새로움) 신경망: Zero to Hero 시리즈 Discord 채널: https://discord.gg/3zy8kqD9Cp , 유튜브 댓글보다 더 깊이 있게 대화하고 싶으신 분들을 위한 곳입니다.
유용한 링크:
- PyTorch 내부 구조 참고 자료: http://blog.ezyang.com/2019/05/pytorch-internals/
연습 문제:
- E01: 학습 하이퍼파라미터를 튜닝하여 내 최상의 검증 손실 (validation loss) 2.2 을 이겨보세요.
- E02: 이 비디오에서 네트워크 초기화 (initialization) 를 주의 깊게 하지 않았습니다. (1) 초기화 시 예측 확률이 완벽하게 균일할 경우 손실은 얼마가 나올까요? 우리는 실제로 어떤 손실을 달성했나요? (2) 초기화를 튜닝하여 (1) 과 매우 유사한 시작 손실을 얻을 수 있나요?
- E03: 위의 링크를 통해 Bengio 외. 2003 년 논문을 읽어보고 논문에서 제시된 아이디어 중 하나를 구현해 시도해보세요. 효과가 있었나요?
챕터:
00:00:00 intro
00:01:48 Bengio 외. 2003 (MLP 언어 모델) 논문 walkthrough
00:09:03 (re-)building our training dataset
00:12:19 implementing the embedding lookup table
00:18:35 implementing the hidden layer + internals of torch.Tensor: storage, views
00:29:15 implementing the output layer
00:29:53 implementing the negative log likelihood loss
00:32:17 summary of the full network
00:32:49 introducing F.cross_entropy and why
00:37:56 implementing th
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기