CS336: 처음부터 만드는 언어 모델링

요약

Stanford의 CS336 강의를 통해 언어 모델을 밑바닥부터 구현하는 과정과 학습 환경에 대한 경험을 공유합니다. GPU 자원 활용, 메모리 관리, 로컬 환경에서의 구현 가능성 등 실무적인 팁을 다룹니다.

핵심 포인트

CS336 강의를 통해 LLM 파이프라인의 핵심 구성요소를 직접 구현 가능
고가의 GPU 없이도 로컬 환경이나 저렴한 임대 GPU로 학습 재현 가능
메모리 관리 및 CUDA/Triton 환경 설정의 중요성 강조
Claude 등을 활용한 GPT-1 개선판 구현 사례 공유

2025년판 강의를 최근 끝냈고, 영상과 대부분의 과제를 했지만 비용이 큰 일부 작업은 건너뜀. 첫 두 과제만 해도 생각과 디버깅이 엄청나게 필요했고, 딥러닝 기초가 어느 정도 있었는데도 퇴근 후와 주말 시간을 조금씩 써서 몇 달이 걸렸음
Stanford 수강생들이 2주 간격으로 과제를 제출하는 게 어떻게 가능한지 상상하기 어려움. 교수진과 조교들이 강의 설계, 최신 동향이 담긴 슬라이드, 훌륭한 과제 준비에 정말 많은 공을 들였고, 작은 구성요소부터 실제 언어 모델을 만들고 LLM 파이프라인의 주요 부분을 검증하면서 전체가 맞물리는 과정을 직접 볼 수 있어 성취감이 큼
다만 실행 환경 요구사항은 더 명확히 안내해 줬으면 좋겠음. 하네스가 Linux + NVIDIA GPU에서 가장 잘 동작하고 특정 CUDA 버전이나 아키텍처를 기대하는데, 연구자에게는 당연해도 개인용 환경에서는 드묾. 집에서 따라가려면 Windows + WSL2 + NVIDIA GPU나 여러 플랫폼의 임대 GPU가 차선인데, 어느 쪽도 쉽거나 싸지 않음. 호환 GPU가 없는 사람이 과정을 최대한 활용하는 방법도 안내가 있으면 좋겠고, Mac OS에서 메모리 분석을 조심하지 않으면 Python 코드가 멈춰 재부팅을 강제할 수 있다는 것도 배웠음

조교 입장에서 확인했음. 이제 더 많은 환경을 테스트할 자원이 생겼고 가능한 한 해보겠음. 직접 짠 코드에서 메모리 과사용으로 멈추는 건 어디서든 생길 수 있지만, 토크나이저 과제에서 제한된 메모리 사용을 달성하도록 안내를 더 엄밀히 할 수 있다고 봄
이 댓글들에서 GPU 임대 비용이 다소 과장된 면도 있음. 대부분의 개발은 로컬에서 하고, 필요한 때만 온디맨드 GPU로 짧게 돌리면 됨. 과제 1은 GPU가 없어도 로컬 머신에서 전부 실행 가능하고, 과제 1·2도 몇 시간 임대만으로 대부분 해결 가능함. 크게 조심하지 않고 임대 GPU를 계속 써도 약 200달러 정도이고, 문제 규모를 줄일 의향이 있으면 50달러 아래로도 쉽게 낮출 수 있음. 이런 점과 조정 방법을 더 명확히 도표화할 수 있을 것 같음
추가 피드백이나 문제가 있으면 저장소에 이슈를 열어주면 좋겠음. 모르는 문제는 고치기 어렵기 때문임

며칠 전 Claude로 gpt-1 개선판을 구현해 봤음. 머신러닝 엔지니어가 아니라 평범한 백엔드 엔지니어인데, 결과적으로 gpt-1과 KellerJordan의 modded-nanogpt를 섞은 형태가 됨
게이밍 PC로 원래 gpt-1 논문의 결과를 재현할 수 있었고, VRAM도 많지 않음. NVIDIA GeForce RTX 2060 SUPER로 1시간 학습만에 대부분 결과를 재현했으니, LLM 사전학습에 관심 있다면 같은 방식으로 해보길 추천함
코드는 여기 있음: https://github.com/epoyraz/modded-gpt-1
아니면 Claude 4.8이나 Codex 5.5에 그냥 물어봐도 됨

richardsocher가 가르쳤던 cs224d에 좋은 기억이 있음. 트랜스포머 이전 시대에 만들어져 지금은 조금 오래됐지만, 당시에는 딥러닝을 자연어 처리에 적용하는 아주 멋진 입문 강의였음 https://cs224d.stanford.edu

비슷하게 느꼈음. 그때 인터넷의 잠재력을 깨달았고, 최상위 연구대학 대학원생이 아니어도 최전선 내용을 배울 수 있었음

“자습용 GPU 연산”이라고 하지만, 추천에 나온 B200은 시간당 4.99달러부터 시작함. 처음 시작하는 데 정말 필요한가 싶음
직접 처음부터 LLM을 만들어보는 중인데, 초기 단계에서는 Vast.ai의 4090 이상은 필요하지 않았음

조교 입장에서는 전혀 그렇지 않음. 첫 과제에는 로컬 연산, 심지어 M 시리즈 GPU까지도 가능하도록 축소 섹션을 명시적으로 넣었음. 과제 2에는 GPU의 Triton 지원이 필요한 구간이 몇 개 있지만, 전부 훨씬 저렴한 GPU에 맞게 조정 가능함
올해 Stanford 학생들에게 Blackwell GPU를 받을 수 있었던 운이 있어서, 과제 설명이 주로 그 기준으로 작성됐음

FPGA와 꽤 비슷하다고 봄. 운영 환경에 필요한 하드웨어는 상대적으로 작을 수 있는데, 운영용 모델이나 비트스트림은 대상 사용 사례에 필요한 것만 남기도록 강하게 크기 최적화되어 있기 때문임
반대로 컴퓨트 커널이나 IP 블록을 설계하는 법을 배우고 실험할 때 필요한 하드웨어는 훨씬 강력하거나 용량이 커야 함. 실험물은 의도적으로 최적화의 반대편에 있고, 모든 단계에서 읽기 쉽고 들여다보기 쉽고 디버깅하기 좋게 만들기 때문에 결과 모델이나 비트스트림이 크게 부풀고 비최적화됨
남이 완성해서 4090 같은 장비에서 쓰도록 최적화한 모델을 자기 프롬프트로 실행하는 것도 실험이긴 하지만 싸게 가능함. 20달러짜리 FPGA용으로 설계·합성된 남의 비트스트림을 같은 FPGA에 올리고 자기 입력 신호를 넣는 것과 비슷함. 하지만 이 강의에서 자기 모델 설계를 배우며 하게 될 실험은 그런 종류가 아님

필요한 자원이 교육기관에서 제공되지 않는다는 게 이상해 보임

자기 LLM을 학습하는 데 GPU가 꼭 필요한 건 아님

의심하는 게 맞음. TinyStories 데이터셋으로 꽤 괜찮은 소형 언어 모델을 4060Ti 16GB에서 문제없이 학습했음. “작다고 봐도 될 정도”보다 큰 모델로 아이디어가 확장되는지 시험하려 할 때부터 문제가 생김

이 강의가 흥미로운데, 선수 조건도 궁금함. 머신러닝과 딥러닝 기초에 익숙해야 한다고 되어 있는데, 해당 주제를 구현 중심으로 자습할 만한 자료나 Stanford 강의 녹화 경험이 있으면 알고 싶음

AI 자동 생성 콘텐츠

원문 바로가기