노이즈 채널로서의 LLM: 모델 용량과 스케일링 법칙에 대한 Shannon 관점
요약
기존 스케일링 법칙이 설명하지 못하는 비단조적 성능 저하 현상을 Shannon-Hartley 정리를 통해 해석하는 새로운 이론적 프레임워크를 제안합니다. 모델 파라미터를 대역폭으로, 학습 토큰을 신호 전력으로 매핑하여 LLM의 근본적인 정보 전송 용량을 분석합니다.
핵심 포인트
- Shannon Scaling Law를 통한 LLM 학습의 노이즈 채널 모델링
- 모델 확장 시 SNR 유지 실패가 성능 저하를 유발함을 증명
- Pythia 및 OLMo2 실험을 통해 이론적 타당성 검증
- 기존 법칙 대비 높은 예측 정확도 및 외삽 능력 확보
대규모 언어 모델 (LLMs)을 위한 기존의 스케일링 법칙 (scaling laws)은 주로 단조적인 거듭제곱 법칙 (monotonic power laws)을 따르지만, 연산량이 증가함에도 불구하고 성능이 저하되는 치명적 과적합 (catastrophic overtraining) 및 양자화 유도 성능 저하 (quantization-induced degradation)와 같은 새롭게 나타나는 비단조적 현상 (non-monotonic phenomena)을 설명하지 못합니다. 우리는 Shannon-Hartley 정리에 근거하여 LLM 학습을 노이즈 채널 (noisy channel)을 통한 정보 전송으로 모델링하는 통합 이론적 프레임워크인 Shannon Scaling Law를 제안합니다. 모델 파라미터를 채널 대역폭 (channel bandwidth)으로, 학습 토큰을 신호 전력 (signal power)으로 매핑함으로써, 우리의 공식은 학습 신호와 내재적 노이즈 (intrinsic noise) 사이의 상호작용을 명시적으로 포착합니다. 이러한 관점은 LLM을 위한 근본적인 Shannon 용량 (Shannon capacity)을 드러냅니다. 즉, 충분한 신호 대 잡음비 (signal-to-noise ratio, SNR)를 유지하지 않은 채 모델 크기나 데이터를 확장하는 것은 필연적으로 노이즈를 증폭시켜, 단조적인 개선에서 U자형 성능 저하로의 전이를 유도합니다. 우리는 가우시안 노이즈 (Gaussian noise), 양자화 (quantization), 그리고 수학, QA 및 코드 작업에 대한 지도 미세 조정 (supervised fine-tuning)을 포함한 섭동 (perturbations) 하에서 Pythia 및 OLMo2를 대상으로 한 실험을 통해 우리의 이론을 검증합니다. Shannon Scaling Law는 고전적인 스케일링 법칙 및 최근의 섭동 인지 법칙 (perturbation-aware laws)보다 일관되게 우수한 성능을 보이며, 높은 $R^2$ 점수를 달성하고 이전 방식들이 놓쳤던 손실 분지 (loss basins)를 정확하게 포착합니다. 또한 이는 외삽 (extrapolate)이 가능합니다. $\leq$6.9B Pythia 모델과 $\leq$180B 토큰으로 피팅했을 때, 단조적 베이스라인 (monotonic baselines)이 붕괴되는 것과 달리, 보지 못한 12B 모델을 307B 토큰까지 통합 $R^2{=}0.847$로 예측합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기