본문으로 건너뛰기

© 2026 Molayo

YouTube요약2026. 05. 03. 00:41

makemore 구축하기 Part 2: MLP

요약

이 기술 기사는 Andrej Karpathy의 'makemore 구축하기 Part 2: MLP' 비디오를 기반으로 하며, 다층 퍼셉트론(MLP)을 사용하여 문자 단위 언어 모델을 구현하는 과정을 다룹니다. 이 과정에서 모델 학습, 학습률 최적화, 하이퍼파라미터 설정, 평가 지표 이해, 그리고 과소/과적합 방지 등 머신러닝의 핵심적인 기본 개념들을 심도 있게 소개합니다. 참가자들은 실제 데이터셋 구축부터 임베딩 레이어, 은닉층 및 출력층 구현에 이르기까지 전체 네트워크를 직접 코드로 작성하며 이론을 실습으로 연결하는 경험을 하게 됩니다.

핵심 포인트

  • MLP(Multi-Layer Perceptron) 기반의 문자 단위 언어 모델 구현 방법 학습
  • 머신러닝의 핵심 개념 (하이퍼파라미터, 과적합/과소적합, 평가 등)에 대한 실질적인 이해 증진
  • PyTorch 텐서 구조 및 내부 작동 원리(storage, views)를 깊이 있게 파악하는 기회 제공
  • 실제 연구 논문(Bengio et al. 2003)의 아이디어를 코드로 구현하며 이론적 지식을 확장할 수 있음

비디오: makemore 구축하기 Part 2: MLP
채널: Andrej Karpathy
지속 시간: 75 분

우리는 다층 퍼셉트론 (MLP) 기반 문자 단위 언어 모델을 구현합니다. 이 비디오에서는 머신러닝의 많은 기본 개념들 (예: 모델 학습, 학습률 튜닝, 하이퍼파라미터, 평가, 학습/검증/테스트 세트 분리, 과소/과적합 등) 을 소개합니다.

링크:

유용한 링크:

연습 문제:

  • E01: 학습 하이퍼파라미터를 튜닝하여 내 최상의 검증 손실 (validation loss) 2.2 을 이겨보세요.
  • E02: 이 비디오에서 네트워크 초기화 (initialization) 를 주의 깊게 하지 않았습니다. (1) 초기화 시 예측 확률이 완벽하게 균일할 경우 손실은 얼마가 나올까요? 우리는 실제로 어떤 손실을 달성했나요? (2) 초기화를 튜닝하여 (1) 과 매우 유사한 시작 손실을 얻을 수 있나요?
  • E03: 위의 링크를 통해 Bengio 외. 2003 년 논문을 읽어보고 논문에서 제시된 아이디어 중 하나를 구현해 시도해보세요. 효과가 있었나요?

챕터:
00:00:00 intro
00:01:48 Bengio 외. 2003 (MLP 언어 모델) 논문 walkthrough
00:09:03 (re-)building our training dataset
00:12:19 implementing the embedding lookup table
00:18:35 implementing the hidden layer + internals of torch.Tensor: storage, views
00:29:15 implementing the output layer
00:29:53 implementing the negative log likelihood loss
00:32:17 summary of the full network
00:32:49 introducing F.cross_entropy and why
00:37:56 implementing th

AI 자동 생성 콘텐츠

본 콘텐츠는 YouTube AI 채널의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0