Weng Li의 Scaling Law 블로그 해석
요약
Lilian Weng의 블로그를 바탕으로 AI 모델의 성능 향상을 결정하는 스케일링 법칙(Scaling Law)을 분석합니다. 모델 파라미터, 데이터 양, 계산량 사이의 상관관계와 Kaplan 및 Chinchilla 연구의 차이점을 요리 비유를 통해 설명합니다.
핵심 포인트
- 모델 크기, 데이터, 연산량과 오차율 사이의 멱법칙 관계 설명
- Kaplan과 Chinchilla 연구의 핵심 논쟁: 모델 크기 vs 데이터 양
- 현재 업계의 합의인 Chinchilla Scaling Law(N ≈ D ∝ √C) 소개
- 데이터 반복 학습 시 발생하는 과적합 및 일반화 성능 저하 위험성
- 스케일링 법칙 피팅 시 주의해야 할 기술적 변수들
https://www.youtube.com/watch?v=o0Bl3zeDfJM
블로그 원문 주소 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
이 하드코어한 블로그를 이해하기 쉽게 먼저 해석해 드립니다 👇
🎯 한 줄 요약
모델이 커지고, 데이터가 많아지고, 더 오래 계산할수록 AI는 더 똑똑해진다. 그리고 성능이 좋아지는 속도와 규모 사이에는 대략적인 "멱법칙 곡선 (Power-law curve)"이 존재한다.
하지만 과연 "모델"과 "데이터" 중 무엇을 먼저 키워야 할까? 이것이 이 글의 핵심 논쟁점이다.
🍳 요리 비유로 이해하기
당신이 엄청난 실력을 가진 요리사( = AI 훈련)를 키우고 있다고 가정해 봅시다:
- 모델 파라미터 수 N = 요리사의 뇌 용량 (레시피와 기술을 기억하는 능력)
- 데이터 양 D = 요리사에게 연습시킨 요리 가짓수
- 계산량 C = 총 시간 + 화구 사용료 (비용/전기)
🔹 Kaplan (2020)의 주장:
"뇌가 큰 요리사는 배우는 속도가 빠르다. 따라서 동일한 예산이라면, 뇌 용량을 키우는 것을 우선시하고 요리 가짓수는 조금 적어도 괜찮다."
→ 결과: 초기 대규모 모델들은 데이터 양이 적은 상태로 훈련되었습니다 (나중에 보니 사실 데이터가 부족했다는 것이 밝혀짐).
🔹 Chinchilla (2022)의 반박:
"아니다! 뇌 용량과 연습 문제(데이터)를 함께 늘려야 한다. 모델이 두 배가 되면 문제도 두 배로 늘려야 최상의 효과를 낼 수 있다."
→ 더 작은 모델에 4배 더 많은 토큰 (token)을 학습시켜, 훨씬 더 큰 Gopher를 압도했습니다.
→ 현재 업계의 합의는 기본적으로 Chinchilla 쪽으로 기울어져 있습니다: N ≈ D ∝ √C
📉 그렇다면 "스케일링 법칙 (Scaling Law)"이란 무엇인가?
간단히 말하면 다음과 같습니다:
모델 크기 / 데이터 양 / 연산력을 로그 좌표계 (log scale)에 그리면
→ 테스트 세트에서의 오차율(error rate)이 직선을 따라 근사적으로 하강한다
이런 느낌입니다:
loss
↑
| /
...
⚠️ 주의사항:
- 이는 **경험적 법칙 (empirical law)**일 뿐, 물리 법칙이 아닙니다.
- 외삽 (extrapolation) 시 오류가 발생하기 쉽습니다 (피팅 세부 사항이 변하면 예측값이 크게 달라질 수 있음).
🔁 현실적인 문제: 좋은 데이터가 부족하다면, 반복 학습을 해야 할까?
현실에서는 고품질 텍스트가 한정되어 있어, 모델이 동일한 데이터 세트를 반복해서 보게 할 수밖에 없습니다:
- 약간의 반복 → 괜찮음
- 대량의 반복 → 정답을 암기함 (과적합 (overfitting)), 일반화 (generalization) 성능 저하
- 모델이 커질수록 반복 데이터에 더 취약함
논문은 몇 가지 경험적 수정안을 제시했지만, 본질은 다음과 같습니다:
새로운 데이터 >> 기존 데이터를 여러 번 반복하는 것
🪤 왜 계산 실수가 자주 발생하는가?
Scaling law를 피팅(fitting)할 때 다음과 같은 요소들이 발목을 잡을 수 있습니다:
- 임베딩 (embedding) 파라미터를 포함했는가?
- 손실 함수 (loss)를 어떻게 평균 냈는가?
- 학습률 스케줄링 (learning rate scheduling)이 변하면 곡선이 뒤틀림
- 몇 개의 작은 모델로 외삽을 시도할 경우 → 실제와 한 자릿수(order of magnitude) 차이가 날 수 있음
따라서 논문은 경고합니다: 단순히 피팅된 직선 하나만 믿고 수백만 달러를 들여 모델을 훈련하기로 결정하지 마라.
✅ 가장 쉬운 요약
- AI가 커지고 + 데이터가 많아지면 → 더 좋아지며, 비교적 규칙적으로 좋아진다 (scaling law)
- 모델과 훈련 데이터는 동시에 확대되어야 한다 (Chinchilla 관점이 승리)
- 기존 데이터를 반복 학습하는 것은 손해이며, 새로운 데이터가 가장 가치 있다
- Scaling law는 경험적 도구이지 철칙이 아니다. 피팅할 때 매우 주의해야 한다
블로그 상세 요점 내용
이 Lil'Log 블로그 게시물 《Scaling Laws, Carefully》는 딥러닝, 특히 대규모 언어 모델 (LLM)에서의 **신경 스케일링 법칙 (Neural Scaling Laws)**을 체계적으로 정리하고 비판적으로 분석하며, 피팅 세부 사항, Kaplan vs Chinchilla 논쟁, 데이터 제한 및 반복 훈련 하에서의 수정, 그리고 실제 적용 시 스케일링 법칙 피팅의 함정에 대해 깊이 있게 다룹니다.
다음은 글의 구조에 따른 주요 요점 정리입니다:
1. Scaling Law (스케일링 법칙)란 무엇인가
- 핵심 관찰: 훈련 손실 L은 모델 파라미터 수 N, 데이터 양 D, 계산량 C가 증가함에 따라 멱법칙 (power-law)에 따라 감소하며, 로그 좌표계에서 직선을 나타낸다.
- 전형적인 형태:
L ∝ N^{-α},L ∝ D^{-β},L ∝ C^{-γ} - 초기 이론적 토대: Amari (1992), Hestness et al. (2017), Rosenfeld et al. (2020) 등이 이미지/NMT 등의 태스크에서 유사한 법칙을 관찰함.
- 역할: 소규모 실험을 통해 피팅하여 → 대규모 모델에 필요한 토큰 (token) / 연산량 (compute)을 외삽하여 예측함.
2. Kaplan et al. (2020) — 초기 LLM Scaling Law
2. Kaplan et al. (2020) — 초기 LLM Scaling Law
- Transformer LM의 경우, test cross-entropy loss가 N(non-embedding), D, C 모두에 대해 거듭제곱 법칙(power law)을 따르는 것으로 발견됨.
- 결합 형태:
L(N,D) = E + A/N^α + B/D^β - 핵심 결론 (후에 의문 제기됨): 고정된 compute 예산 하에서,
N_opt ∝ C^0.73이며, 이는 모델 증폭 속도가 데이터보다 빨라야 함을 의미함 → 10배의 compute를 사용하면 ~5.5배의 모델과 ~1.8배의 토큰이 필요함. - 훈련 FLOP 근사치:
C ≈ 6ND(토큰당 forward 2N + backward 4N).
III. Chinchilla / Hoffmann et al. (2022) — Kaplan의 compute-optimal 분배를 뒤집다
- 더 체계적인 실험(70M–16B 파라미터, 5B–500B 토큰)을 통해 세 가지 독립적인 방법론에서 일관된 결과가 도출됨.
- 핵심 수정:
α ≈ β→ 모델 파라미터 수 N과 훈련 토큰 수 D는 동일한 비율로 축소되어야 함 (즉, N ∝ D ∝ √C). - 동일한 compute 예산 하에서, Gopher보다 4배 작지만 4배 더 많은 토큰으로 훈련된 Chinchilla (70B, 1.4T)가 Gopher (280B, 300B)보다 전반적으로 우수함.
- Chinchilla는 이전의 대규모 모델들이 일반적으로 **훈련 부족(undertrained)**했다고 주장함.
IV. Kaplan과 Chinchilla 결과가 다른 이유?
논문은 두 가지 주요 원인을 제시함:
- 스케일 차이: Kaplan은 비교적 작은 모델만을 외삽하여, 로그-로그 피팅의 미세한 편차가 외삽 시 큰 격차를 유발함.
- Embedding 파라미터 포함 여부:
- Kaplan은 embedding params를 계산에 포함하지 않았고, Chinchilla는 총합을 계산에 포함함.
- Pearce & Song (2024)은 작은 모델에서는 embedding의 비중을 무시할 수 없음을 증명했으며, 수정 후 Kaplan의 소규모 모델 구간에서 ~0.73 지수를 재현할 수 있었고; 대규모 스케일에서는 Chinchilla의 ~0.5로 수렴함.
V. Scaling Law가 거듭제곱 법칙인 이유? — 이론적 가설
- 데이터 매니폴드 차원 가설 (Sharma & Kaplan 2020): 모델이 d차원의 데이터 매니폴드를 O(N) 영역으로 분할함 → 해상도 ∝ N^{-1/d} → 거듭제곱 법칙.
- 지식 양자화 가설 (Michaud 2023, Brill 2024): 기술이 거듭제곱 법칙에 따라 분포되어 학습됨 → 부드러운 거듭제곱 감쇠.
- 그 외에도 다른 해석(스펙트럼 테일, 커널 고유값, 자연어 통계적 특성 등)이 있으며, 아직 통합된 이론은 없음.
VI. 데이터 제한 및 반복 훈련 (Data-Constrained / Repeated Data)
실제 시나리오에서 고품질의 유일한 토큰은 한정되어 있어, 종종 여러 에포크(epoch)가 필요함:
- Hernandez et al. (2022): 소량의 반복 데이터는 double-descent를 일으킬 수 있으며, 반복 훈련은 OOD 및 미세 조정에 손상을 줄 수 있음.
- Muennighoff et al. (2023, Data-Constrained Scaling):
D = U_D × (1+R_D)로 분해하여
이 글은 LLM (Large Language Model) 스케일링 법칙 (Scaling Law)의 형태와 기원에 대해 포괄적으로 설명합니다. Kaplan (모델 우선) vs Chinchilla (균형 N≈D)의 견해 차이가 발생하는 근본 원인을 중점적으로 비교하며, 데이터 반복/제한 시나리오 하에서의 수정 모델로 확장합니다. 마지막으로 스케일링 법칙 (scaling law)의 피팅 (fitting) 및 외삽 (extrapolation)이 실제 운영에서 매우 민감하다는 점을 경고합니다.
만약 특정 부분(예: Chinchilla 유도 과정, 데이터 반복 수정 공식, 또는 직접 스케일링 법칙 (scaling law)을 피팅하는 방법 등)에 대해 더 깊이 알고 싶다면, 별도로 자세히 설명해 드릴 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기