본문으로 건너뛰기

© 2026 Molayo

HN분석2026. 04. 24. 23:43

Show HN: LLM 작동 방식 – Karpathy 강의 기반 인터랙티브 비주얼 가이드

요약

본 글은 Andrej Karpathy의 강의를 기반으로, GPT와 같은 대규모 언어 모델(LLMs)이 어떻게 구축되는지 단계별로 심층 분석합니다. 인터넷 데이터 수집부터 정제, 토큰화(Tokenization), 그리고 트랜스포머 아키텍처(Transformer Architecture)를 통한 훈련 과정까지 전 과정을 다룹니다. 핵심은 '데이터의 양과 질'이며, 모델이 단순히 다음 단어를 예측하는 통계적 패턴을 학습하여 인간 언어의 문법, 사실, 추론 능력까지 습득한다는 점입니다.

핵심 포인트

  • LLM의 기반 데이터는 Common Crawl 같은 웹 크롤링 데이터를 수집한 후, 필터링(URL Filtering), 중복 제거(Deduplication) 등을 거쳐 44TB 규모의 고품질 코퍼스(FineWeb Dataset)를 만듭니다.
  • 텍스트는 BPE (Byte Pair Encoding) 알고리즘을 사용해 서브워드 토큰(sub-word tokens)으로 분해되며, 이는 단어의 무한한 변이형과 새로운 용어를 효율적으로 처리하게 합니다.
  • LLM은 트랜스포머 구조를 통해 임베딩 벡터(Embedding Vector)를 활용하여 문맥적 의미를 파악하며, 본질적으로 다음 토큰을 예측하는 통계적 과정입니다.
  • 훈련된 모델은 추론(Inference) 단계에서 'Temperature' 같은 매개변수를 조절하여 확률 분포에 기반해 텍스트를 자가회귀적(autoregressively)으로 생성합니다.

ChatGPT와 같은 대규모 언어 모델(LLMs)이 어떻게 구축되는지에 대한 완벽한 워크스루

ChatGPT와 같은 대규모 언어 모델을 원시 인터넷 텍스트부터 대화형 어시스턴트까지 만드는 전 과정을 다룹니다. Andrej Karpathy의 기술 심층 분석을 기반으로 합니다.

학습 토큰(Training Tokens): 15T
파라미터(Parameters): 405B
텍스트 데이터(Text Data): 44 TB
토큰 어휘(Token Vocabulary): 100K

2024년경 최첨단 모델의 대표 수치입니다. 정확한 숫자는 배포될 때마다 변동됩니다. 중요한 것은 정밀도가 아니라 규모입니다.

Chapter 1 · 사전 학습(Pre-Training) · Stage 1

인터넷 다운로드

가장 첫 단계는 엄청난 양의 텍스트를 수집하는 것입니다. Common Crawl과 같은 조직은 2007년부터 웹을 크롤링해 왔으며, 2024년까지 27억 개의 페이지를 인덱싱했습니다. 이 원시 데이터는 FineWeb과 같은 고품질 데이터셋으로 필터링됩니다.

목표: 대량의 고품질이며 다양한 문서. 공격적인 필터링을 거치면 약 44테라바이트(TB) — 소비자 하드 드라이브 약 10개 분량의 텍스트 — 를 얻게 되며, 이는 약 15조 개의 토큰에 해당합니다.

핵심 통찰: 이 학습 데이터의 품질과 다양성이 최종 모델에 거의 모든 것보다 더 큰 영향을 미칩니다. 쓰레기가 들어가면 쓰레기가 나옵니다(Garbage in, garbage out) — 하지만 이는 조 단위 토큰 규모에서 그렇습니다.


🌐 Common Crawl

웹을 크롤링하고 데이터를 자유롭게 제공하는 비영리 조직입니다. 이들의 봇은 시드 페이지(seed pages)에서 링크를 따라가며 인터넷을 재귀적으로 인덱싱합니다. 원시 아카이브는 원시 HTML을 담고 있는 gzip 압축 WARC 파일의 페타바이트(petabytes) 규모입니다.

🚫 URL 필터링 (URL Filtering)

블록리스트 · 악성코드 · 스팸 · 성인 콘텐츠
알려진 악성 웹사이트, 스팸 네트워크, 성인 콘텐츠, 마케팅 페이지 및 저품질 도메인의 블록리스트가 적용됩니다. 전체 도메인을 제거할 수도 있습니다. 이는 가장 저렴한 필터이므로 가장 먼저 실행됩니다.

📄 텍스트 추출 (Text Extraction)

HTML → 클린 텍스트 · 내비게이션 및 CSS 제거
원시 HTML에는 <div> 태그, CSS, JavaScript, 내비게이션 메뉴, 광고 등이 포함되어 있습니다. 파서(Parsers)는 의미 있는 텍스트 콘텐츠만을 추출합니다. 이는 생각보다 어렵습니다 — 휴리스틱스(heuristics)가 무엇이

AI 자동 생성 콘텐츠

본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
9

댓글

0