114페이지 분량의 ML 수학, 그리고 실제 업무에서 쓰이는 것들

62페이지의 머신러닝 (ML) 수학. 52페이지의 딥러닝 (DL) 수학. 이론 시험을 준비하는 한 학생이 정리하여 지난 주말 r/learnmachinelearning에 게시했고 현재 138개의 추천을 받은 114페이지 분량의 공식 모음입니다. 모든 항목은 일관된 표기법 (notation), 텐서 형상 (tensor shapes), 그리고 한 줄의 용도 라벨을 포함하고 있습니다. 이 치트 시트 (cheatsheet)는 철저한 교육 과정이 다루는 내용을 담고 있습니다. ML 측면에서는 선형 회귀 (Linear regression) 및 로지스틱 회귀 (Logistic regression), 결정 트리 (Decision trees) 및 트리 앙상블 (Tree ensembles), K-평균 (K-means) 및 이상 탐지 (Anomaly detection), PCA가 포함되어 있습니다. DL 측면에서는 순전파 (Forward prop), 역전파 (Backprop), Adam, RMSProp, CNNs, RNNs, GRUs, LSTMs, transformers, self-attention, 단어 임베딩 (Word embeddings) 및 seq2seq가 포함되어 있습니다. 여기에 더해 형상 참조 표 (Shape reference tables)가 있는데, 이는 현업 엔지니어가 실제로 다시 들여다보게 되는 섹션입니다. 이 마지막 문장이 이 포스트의 핵심입니다. 프로젝트가 출시되면 114페이지 중 대부분은 .fit() 호출, .compile() 호출, 또는 import 뒤로 사라집니다. 이 치트 시트는 진정으로 훌륭합니다. 학생들과 면접 준비생들은 이를 통해 상당한 시간을 절약할 수 있을 것입니다. 하지만 2026년의 현업 ML 또는 응용 AI (Applied AI) 엔지니어에게 있어, 실제로 지탱 역할을 하는 하위 집합은 페이지 수로 짐작하는 것보다 훨씬 작습니다. 흥미로운 질문은 수학을 배울 것인가가 아니라, 어떤 수학이 시간을 투자할 가치가 있는가입니다. 2026년에 LLM 기능을 출시하는 팀들은 대략 비슷한 결론에 도달합니다. 세 가지 공식은 암기할 가치가 있을 만큼 화면에 자주 등장하며, 어떤 교육 과정 형태의 치트 시트든 특정 섹션은 조용히 박물관의 유물처럼 변해버렸습니다. 첫 번째는 역전파 (Backprop)에서의 연쇄 법칙 (Chain-rule) 적용입니다 — ∂L/∂w = ∂L/∂y · ∂y/∂z · ∂z/∂w . Autograd가 이를 계산하며, 엔지니어는 그 결과(consequences)를 읽습니다. 깊은 스택에서의 기울기 소실 (Vanishing gradients), RNN 스타일 블록에서의 기울기 폭주 (Exploding gradients), 업데이트되기 전에 포화되는 활성화 함수 (Activation saturating) — 이러한 실패들은 손실 곡선 (Loss curve)만으로는 보이지 않습니다. 엔지니어가 머릿속으로 레이어를 통해 기울기를 역방향으로 추적할 수 있는 순간, 이 모든 것들이 보이기 시작합니다.

혼합 정밀도 (Mixed-precision) 오버플로, 그래디언트 클리핑 (gradient-clipping) 임계값, 커스텀 블록에서의 tanh와 gelu 사이의 선택 모두 이것에 기반합니다. 역전파 (Backprop)는 딥러닝 강의에서 가장 어려운 내용으로 가르쳐지지만, 실무에서는 가장 많이 사용되는 내용으로 나타납니다. 두 번째는 소프트맥스-교차 엔트로피 (softmax-with-cross-entropy) 그래디언트인 $\partial L/\partial z = \hat{y} - y$ 입니다. 전체 치트시트에서 가장 단순한 미분이며, 분류기 (classifier)가 수렴할지 아니면 진동할지를 결정하는 요소입니다. 자동 미분 (Autograd)이 대입은 수행하지만 손실 함수 (loss)를 선택하지는 않습니다. 그것은 엔지니어가 결정합니다. 레이블 스무딩 (Label smoothing), 온도 스케일링 (temperature scaling), 포컬 로스 (focal loss), BCE와 CCE 사이의 선택 — 이 각각은 동일한 항등식에 대한 작은 섭동 (perturbation)이며, 이를 두 줄로 유도할 수 있는 엔지니어는 오작동하는 손실 함수를 2분 만에 디버깅할 수 있습니다. 세 번째는 스케일드 닷 프로덕트 어텐션 (scaled dot-product attention)인 $\text{softmax}(QK^T / \sqrt{d_k}) \cdot V$ 입니다. 가장 작은 오픈 웨이트 (open-weights) 베이스 모델부터 최신 프런티어 (frontier) 모델에 이르기까지, 트랜스포머 (transformer) 구조를 가진 모든 모델은 타이트한 루프 안에서 이를 실행합니다. 이 수식의 차원 대수 (dimensional algebra)가 KV 캐시 (KV-cache) 점유율, 멀티 헤드 (multi-head) 분할 너비, 그룹 쿼리 (grouped-query) 레이아웃, RoPE 위치 회전, 그리고 서빙을 위한 추론 비용 (inference-cost) 스토리를 결정합니다. 자체 추론 스택을 운영하는 팀은 배치 크기 (batch size)를 조정하거나, 투영 행렬 (projection matrices)을 위해 FP8과 BF16 사이에서 결정하거나, 더 긴 컨텍스트 윈도우 (context window)가 이차 메모리 비용 (quadratic memory cost)을 감수할 가치가 있는지 평가할 때마다 이 공식에 의지합니다. 세 가지 공식. 역전파, 교차 엔트로피, 어텐션. 나머지 111페이지는 다른 형태의 유용성을 가집니다. 그것들은 이 세 가지를 읽을 수 있게 만드는 기질 (substrate)이지만, 엔지니어의 화면에 일반적인 주간 업무로 나타나는 것은 아닙니다. 이 분야가 지나쳐버렸기 때문에 치트시트에서 빠진 섹션은 저자가 표지에 명시한 내용입니다. SVM과 나이브 베이즈 (Naive Bayes)는 62페이지의 ML 내용에 포함되어 있지 않습니다. 이 포스트가 추적하는 팀들의 2026년 프로덕션 스택에도 포함되어 있지 않습니다.

SVM (Support Vector Machines)은 2008~2013년 시대의 핵심 분류기였으며 여전히 교육되고 있지만, 2026년의 실무 엔지니어는 데이터가 정형 데이터(tabular data)라면 Gradient-Boosted Tree를, 그렇지 않다면 소규모로 파인튜닝(fine-tuned)된 Encoder를 사용합니다. Naive Bayes는 이제 교육용 대상일 뿐입니다. 치트시트(cheatsheet)의 저자는 이 누락을 한계점으로 표시했지만, 실무자의 관점에서는 이것이 문서의 결함이 아닌 하나의 특징으로 읽힙니다. 다른 두 가지 누락 사항인 GAN (Generative Adversarial Networks)과 Diffusion Models (확산 모델)는 정반대의 방향을 가리킵니다. GAN은 학습 패러다임으로서 거의 사라졌으며, 분야는 Diffusion과 Rectified Flows로 이동했습니다. 앞으로 중요한 공백은 Diffusion이며, 섹션을 하나 추가해야 하는 2026년판 치트시트라면 반드시 Diffusion의 순방향/역방향 과정(forward/reverse process), 노이즈 스케줄(noise schedule), 그리고 Score-matching identity를 포함해야 합니다. 2024년 세대의 ML 커리큘럼에는 Diffusion이 포함되지 않았습니다. 2026년 세대에는 포함될 것입니다. 이 치트시트를 정직하게 읽어보면 두 개의 문서가 동시에 존재하는 것과 같습니다. 첫 번째는 저자가 시험을 위해 작성한 학습 보조 도구로, 포괄적이고 일관적이며, 인터뷰 준비생들이 고마워할 만한 형태 표(shape tables)를 갖추고 있습니다. 두 번째는 의도치 않게 만들어진, 표준 ML 커리큘럼 중 어떤 요소가 여전히 교육 시간을 할애할 가치가 있고 어떤 것이 대부분 역사적인 유물인지 보여주는 지도입니다. 시험을 위해 이를 만든 학생은 아마도 두 번째 문서를 쓸 의도는 없었을 것입니다. 하지만 SVM, Naive Bayes, GAN, 그리고 Diffusion에 관한 커버 노트 자체가 114페이지 중 가장 흥미로운 페이지입니다. 리포지토리(repo)는 github.com/Jerry-0821/ml-dl-formula-cheatsheet 에 있으며, 원본 r/learnmachinelearning 스레드가 이 포스트가 올라온 곳입니다. 만약 이 내용이 강의 방식과 일치한다면 Star를 눌러주세요. 업무 현장에서 나타나는 수십 개의 공식은 또 다른 목록이며, 이 치트시트는 실무 엔지니어가 그 공식들의 이름을 명명할 수 있는 기질(substrate)로서 가장 유용합니다.

114페이지 분량의 ML 수학, 그리고 실제 업무에서 쓰이는 것들

요약

핵심 포인트

댓글