매끄러운 스케일링 법칙(Scaling Laws)에 숨겨진 단계별 토큰 학습
요약
언어 모델의 스케일링 법칙이 발생하는 원인을 토큰 수준의 학습 이벤트로 분석한 연구입니다. 토큰 학습이 특정 시점에 집중되는 '학습 시간 스펙트럼'이 스케일링 법칙의 형태를 결정함을 입증했습니다.
핵심 포인트
- 스케일링 법칙을 개별 토큰의 국소적 학습 이벤트로 분해하여 분석
- 토큰 학습 궤적을 시그모이드 함수로 피팅하여 학습 시간 스펙트럼 도출
- 학습 시간 분포 재구성을 통해 검증 손실 감소 속도를 11% 향상
언어 모델의 손실(loss)은 모델 및 데이터 크기에 따라 놀라울 정도로 규칙적인 스케일링 법칙 (scaling laws)을 따르지만, 왜 총체적인 손실이 거듭제곱 법칙 (power-law) 형태를 보이는지는 여전히 불분명합니다. 기존의 설명들은 종종 이러한 규칙성을 자연어 내 패턴 난이도의 두터운 꼬리 스펙트럼 (heavy-tailed spectrum) 덕분으로 돌리지만, 이러한 관점은 대규모 실제 데이터 학습에서 토큰 수준 (token-level)의 세밀함으로 직접 검증된 바 없습니다. 본 연구에서는 스케일링 법칙을 개별 문맥화된 토큰 (contextualized tokens)의 국소적 학습 이벤트로 분해하는 토큰 수준 프레임워크를 제시합니다. 토큰 손실 궤적을 시그모이드 (sigmoid) 함수로 피팅함으로써, 우리는 토큰 학습이 국소적인 전이 (transitions)에 집중되어 있으며, 이것이 스케일링 법칙의 형태를 지배하는 학습 시간 스펙트럼 (learning-time spectrum)을 생성한다는 것을 보여줍니다. 현대적인 LLM 아키텍처를 사용하여 대규모 및 다양한 실제 언어 코퍼스(corpora)에서 6B 파라미터 및 300B 학습 토큰까지 확장하며 100회 이상의 사전 학습 (pre-training)을 수행한 결과, 측정된 학습 시간 스펙트럼은 학습 단계 $T$, 데이터 규모 $D$, 모델 규모 $M$ 축을 따라 검증 손실 (validation loss)의 도함수를 정량적으로 재구성합니다. 나아가 우리는 동일한 신호가 실행 가능하다는 것을 보여줍니다. 토큰이 학습 가능해지는 시점에 따라 학습 분포를 재구성함으로써, 최적화 궤적 (optimization trajectory)을 변경하고 검증 손실 감소 속도를 11% 더 빠르게 달성했습니다. 이러한 결과는 스케일링 법칙이 주로 토큰 수준의 학습 시간 분포에 의해 지배되며, 이 분포가 스케일링 동작을 설명할 뿐만 아니라 학습 성능을 향상시키는 데에도 사용될 수 있다는 직접적인 실증적 증거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기