https://www.youtube.com/watch?v=o0Bl3zeDfJM

블로그 원문 주소 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

이 하드코어한 블로그를 이해하기 쉽게 먼저 해석해 드립니다 👇

🎯 한 줄 요약

모델이 커지고, 데이터가 많아지고, 더 오래 계산할수록 AI는 더 똑똑해진다. 그리고 성능이 좋아지는 속도와 규모 사이에는 대략적인 "멱법칙 곡선 (Power-law curve)"이 존재한다.

하지만 과연 "모델"과 "데이터" 중 무엇을 먼저 키워야 할까? 이것이 이 글의 핵심 논쟁점이다.

🍳 요리 비유로 이해하기

당신이 엄청난 실력을 가진 요리사( = AI 훈련)를 키우고 있다고 가정해 봅시다:

모델 파라미터 수 N = 요리사의 뇌 용량 (레시피와 기술을 기억하는 능력)
데이터 양 D = 요리사에게 연습시킨 요리 가짓수
계산량 C = 총 시간 + 화구 사용료 (비용/전기)

🔹 Kaplan (2020)의 주장:

"뇌가 큰 요리사는 배우는 속도가 빠르다. 따라서 동일한 예산이라면, 뇌 용량을 키우는 것을 우선시하고 요리 가짓수는 조금 적어도 괜찮다."

→ 결과: 초기 대규모 모델들은 데이터 양이 적은 상태로 훈련되었습니다 (나중에 보니 사실 데이터가 부족했다는 것이 밝혀짐).

🔹 Chinchilla (2022)의 반박:

"아니다! 뇌 용량과 연습 문제(데이터)를 함께 늘려야 한다. 모델이 두 배가 되면 문제도 두 배로 늘려야 최상의 효과를 낼 수 있다."

→ 더 작은 모델에 4배 더 많은 토큰 (token)을 학습시켜, 훨씬 더 큰 Gopher를 압도했습니다.

→ 현재 업계의 합의는 기본적으로 Chinchilla 쪽으로 기울어져 있습니다: N ≈ D ∝ √C

📉 그렇다면 "스케일링 법칙 (Scaling Law)"이란 무엇인가?

간단히 말하면 다음과 같습니다:

모델 크기 / 데이터 양 / 연산력을 로그 좌표계 (log scale)에 그리면

→ 테스트 세트에서의 오차율(error rate)이 직선을 따라 근사적으로 하강한다

이런 느낌입니다:

loss
 ↑
 |        /
...

⚠️ 주의사항:

이는 **경험적 법칙 (empirical law)**일 뿐, 물리 법칙이 아닙니다.
외삽 (extrapolation) 시 오류가 발생하기 쉽습니다 (피팅 세부 사항이 변하면 예측값이 크게 달라질 수 있음).

🔁 현실적인 문제: 좋은 데이터가 부족하다면, 반복 학습을 해야 할까?

현실에서는 고품질 텍스트가 한정되어 있어, 모델이 동일한 데이터 세트를 반복해서 보게 할 수밖에 없습니다:

약간의 반복 → 괜찮음
대량의 반복 → 정답을 암기함 (과적합 (overfitting)), 일반화 (generalization) 성능 저하
모델이 커질수록 반복 데이터에 더 취약함

논문은 몇 가지 경험적 수정안을 제시했지만, 본질은 다음과 같습니다:

새로운 데이터 >> 기존 데이터를 여러 번 반복하는 것

🪤 왜 계산 실수가 자주 발생하는가?

Scaling law를 피팅(fitting)할 때 다음과 같은 요소들이 발목을 잡을 수 있습니다:

임베딩 (embedding) 파라미터를 포함했는가?
손실 함수 (loss)를 어떻게 평균 냈는가?
학습률 스케줄링 (learning rate scheduling)이 변하면 곡선이 뒤틀림
몇 개의 작은 모델로 외삽을 시도할 경우 → 실제와 한 자릿수(order of magnitude) 차이가 날 수 있음

따라서 논문은 경고합니다: 단순히 피팅된 직선 하나만 믿고 수백만 달러를 들여 모델을 훈련하기로 결정하지 마라.

✅ 가장 쉬운 요약

AI가 커지고 + 데이터가 많아지면 → 더 좋아지며, 비교적 규칙적으로 좋아진다 (scaling law)

모델과 훈련 데이터는 동시에 확대되어야 한다 (Chinchilla 관점이 승리)

기존 데이터를 반복 학습하는 것은 손해이며, 새로운 데이터가 가장 가치 있다

Scaling law는 경험적 도구이지 철칙이 아니다. 피팅할 때 매우 주의해야 한다

블로그 상세 요점 내용

이 Lil'Log 블로그 게시물 《Scaling Laws, Carefully》는 딥러닝, 특히 대규모 언어 모델 (LLM)에서의 **신경 스케일링 법칙 (Neural Scaling Laws)**을 체계적으로 정리하고 비판적으로 분석하며, 피팅 세부 사항, Kaplan vs Chinchilla 논쟁, 데이터 제한 및 반복 훈련 하에서의 수정, 그리고 실제 적용 시 스케일링 법칙 피팅의 함정에 대해 깊이 있게 다룹니다.

다음은 글의 구조에 따른 주요 요점 정리입니다:

1. Scaling Law (스케일링 법칙)란 무엇인가

핵심 관찰: 훈련 손실 L은 모델 파라미터 수 N, 데이터 양 D, 계산량 C가 증가함에 따라 멱법칙 (power-law)에 따라 감소하며, 로그 좌표계에서 직선을 나타낸다.
전형적인 형태: L ∝ N^{-α}, L ∝ D^{-β}, L ∝ C^{-γ}
초기 이론적 토대: Amari (1992), Hestness et al. (2017), Rosenfeld et al. (2020) 등이 이미지/NMT 등의 태스크에서 유사한 법칙을 관찰함.
역할: 소규모 실험을 통해 피팅하여 → 대규모 모델에 필요한 토큰 (token) / 연산량 (compute)을 외삽하여 예측함.

2. Kaplan et al. (2020) — 초기 LLM Scaling Law

Transformer LM의 경우, test cross-entropy loss가 N(non-embedding), D, C 모두에 대해 거듭제곱 법칙(power law)을 따르는 것으로 발견됨.
결합 형태: L(N,D) = E + A/N^α + B/D^β
핵심 결론 (후에 의문 제기됨): 고정된 compute 예산 하에서, N_opt ∝ C^0.73이며, 이는 모델 증폭 속도가 데이터보다 빨라야 함을 의미함 → 10배의 compute를 사용하면 ~5.5배의 모델과 ~1.8배의 토큰이 필요함.
훈련 FLOP 근사치: C ≈ 6ND (토큰당 forward 2N + backward 4N).

III. Chinchilla / Hoffmann et al. (2022) — Kaplan의 compute-optimal 분배를 뒤집다

더 체계적인 실험(70M–16B 파라미터, 5B–500B 토큰)을 통해 세 가지 독립적인 방법론에서 일관된 결과가 도출됨.
핵심 수정: α ≈ β → 모델 파라미터 수 N과 훈련 토큰 수 D는 동일한 비율로 축소되어야 함 (즉, N ∝ D ∝ √C).
동일한 compute 예산 하에서, Gopher보다 4배 작지만 4배 더 많은 토큰으로 훈련된 Chinchilla (70B, 1.4T)가 Gopher (280B, 300B)보다 전반적으로 우수함.
Chinchilla는 이전의 대규모 모델들이 일반적으로 **훈련 부족(undertrained)**했다고 주장함.

IV. Kaplan과 Chinchilla 결과가 다른 이유?

논문은 두 가지 주요 원인을 제시함:

스케일 차이: Kaplan은 비교적 작은 모델만을 외삽하여, 로그-로그 피팅의 미세한 편차가 외삽 시 큰 격차를 유발함.
Embedding 파라미터 포함 여부:
- Kaplan은 embedding params를 계산에 포함하지 않았고, Chinchilla는 총합을 계산에 포함함.
- Pearce & Song (2024)은 작은 모델에서는 embedding의 비중을 무시할 수 없음을 증명했으며, 수정 후 Kaplan의 소규모 모델 구간에서 ~0.73 지수를 재현할 수 있었고; 대규모 스케일에서는 Chinchilla의 ~0.5로 수렴함.

V. Scaling Law가 거듭제곱 법칙인 이유? — 이론적 가설

데이터 매니폴드 차원 가설 (Sharma & Kaplan 2020): 모델이 d차원의 데이터 매니폴드를 O(N) 영역으로 분할함 → 해상도 ∝ N^{-1/d} → 거듭제곱 법칙.
지식 양자화 가설 (Michaud 2023, Brill 2024): 기술이 거듭제곱 법칙에 따라 분포되어 학습됨 → 부드러운 거듭제곱 감쇠.
그 외에도 다른 해석(스펙트럼 테일, 커널 고유값, 자연어 통계적 특성 등)이 있으며, 아직 통합된 이론은 없음.

VI. 데이터 제한 및 반복 훈련 (Data-Constrained / Repeated Data)

실제 시나리오에서 고품질의 유일한 토큰은 한정되어 있어, 종종 여러 에포크(epoch)가 필요함:

Hernandez et al. (2022): 소량의 반복 데이터는 double-descent를 일으킬 수 있으며, 반복 훈련은 OOD 및 미세 조정에 손상을 줄 수 있음.
Muennighoff et al. (2023, Data-Constrained Scaling):
- D = U_D × (1+R_D)로 분해하여

이 글은 LLM (Large Language Model) 스케일링 법칙 (Scaling Law)의 형태와 기원에 대해 포괄적으로 설명합니다. Kaplan (모델 우선) vs Chinchilla (균형 N≈D)의 견해 차이가 발생하는 근본 원인을 중점적으로 비교하며, 데이터 반복/제한 시나리오 하에서의 수정 모델로 확장합니다. 마지막으로 스케일링 법칙 (scaling law)의 피팅 (fitting) 및 외삽 (extrapolation)이 실제 운영에서 매우 민감하다는 점을 경고합니다.

만약 특정 부분(예: Chinchilla 유도 과정, 데이터 반복 수정 공식, 또는 직접 스케일링 법칙 (scaling law)을 피팅하는 방법 등)에 대해 더 깊이 알고 싶다면, 별도로 자세히 설명해 드릴 수 있습니다.

Insights

Weng Li의 Scaling Law 블로그 해석

요약

핵심 포인트

🎯 한 줄 요약

🍳 요리 비유로 이해하기

🔹 Kaplan (2020)의 주장:

🔹 Chinchilla (2022)의 반박:

📉 그렇다면 "스케일링 법칙 (Scaling Law)"이란 무엇인가?

🔁 현실적인 문제: 좋은 데이터가 부족하다면, 반복 학습을 해야 할까?

🪤 왜 계산 실수가 자주 발생하는가?

✅ 가장 쉬운 요약

블로그 상세 요점 내용

1. Scaling Law (스케일링 법칙)란 무엇인가

2. Kaplan et al. (2020) — 초기 LLM Scaling Law

2. Kaplan et al. (2020) — 초기 LLM Scaling Law

III. Chinchilla / Hoffmann et al. (2022) — Kaplan의 compute-optimal 분배를 뒤집다

IV. Kaplan과 Chinchilla 결과가 다른 이유?

V. Scaling Law가 거듭제곱 법칙인 이유? — 이론적 가설

VI. 데이터 제한 및 반복 훈련 (Data-Constrained / Repeated Data)

댓글

Siemens Energy, 오만 내 2개 발전소에 기술 공급 예정

뉴욕에서 다운페이먼트(Down payment)를 모으는 데 65년이 걸릴 수 있는 반면, 중서부에서는 4년이면 충분합니다.

여름철 전망이 완화되었음에도 용량 문제가 해결되지 않은 이유

South32, Alcoa와 56억 달러 규모의 알루미늄 자산 매각 조건부 계약 체결

뉴욕에서 다운페이먼트(Down payment)를 모으는 데 65년이 걸릴 수 있는 반면, 중서부에서는 4년이면 충분합니다.

여름철 전망이 완화되었음에도 용량 문제가 해결되지 않은 이유

South32, Alcoa와 56억 달러 규모의 알루미늄 자산 매각 조건부 계약 체결