InfoLaw: 질량 가중치 혼합 데이터와 반복을 통한 대형 언어 모델의 정보 확장 법칙
요약
InfoLaw는 대규모 언어 모델(LLM)의 훈련 과정에서 정보 확장 법칙을 다루는 새로운 프레임워크입니다. 이 방법은 소비된 토큰 수, 모델 크기, 데이터 혼합 가중치, 그리고 반복 횟수까지 고려하여 LLM의 성능을 예측합니다. 기존 방식이 혼합 레시피나 반복에 대한 외부 추정을 제공하지 못했던 한계를 극복하고, 다양한 컴퓨팅 예산 하에서 최적의 데이터 조합과 규모를 결정할 수 있게 합니다.
핵심 포인트
- InfoLaw는 LLM 성능을 예측하기 위해 토큰 소비량, 모델 크기, 데이터 혼합 가중치, 반복 횟수를 통합적으로 고려하는 정보 인식 확장 프레임워크입니다.
- 전통적인 확장 법칙은 복잡한 데이터 레시피(혼합 비율 및 반복)에 대한 신뢰할 수 있는 외부 추정을 제공하지 못했습니다. InfoLaw는 이 문제를 해결합니다.
- InfoLaw를 통해 최대 7B, 425B 토큰 규모까지의 성능 예측이 가능하며, 낮은 오차율로 다양한 컴퓨팅 예산에서의 효율적인 데이터 레시피 선택을 지원합니다.
- 훈련 과정에서 정보 밀도 제어와 반복에 따른 규모 의존적 감소 효과를 모델링하여 LLM 훈련 최적화를 목표로 합니다.
LLM 전训练中 고품질 데이터를 강조하는 것은 성능 향상을 가져오지만, 데이터 제한 환경 특히 과훈련 (overtraining) 하에서는 더 강한 강조가 반복을 증가시키고 성능을 저하시킬 수 있습니다. 그러나 표준 확장 법칙은 혼합 레시피나 반복에 대해 신뢰할 수 있는 외부추정을 하지 못하여 확장 조건에서 최적의 데이터 레시피 선택이 결정되지 않습니다. 이를 해결하기 위해 우리는 InfoLaw (Information Scaling Laws) 를 소개합니다. 이는 소비된 토큰, 모델 크기, 데이터 혼합 가중치, 반복을 예측하는 데이터 인식 확장 프레임워크입니다. 핵심 아이디어는 전训练中 정보 축적 모델을 구축하는 것이며, 품질은 정보 밀도를 제어하고 반복은 규모 의존적 감소 효과를 유발합니다. 우리는 먼저 규모, 품질 분포, 반복 수준이 다른 데이터셋에 훈련 후 모델 성능을 수집합니다. 그 다음 정보 모델링을 구축하여 정보가 해당 모델 성능을 정확하게 예측하도록 합니다. InfoLaw 는 새로운 데이터 레시피와 더 큰 규모의 실행 (최대 7B, 425B 토큰) 에 대한 성능을 예측하며 손실의 평균 절대 오차는 0.15%, 최대 절대 오차는 0.96%이며 과훈련 수준에 걸쳐 신뢰할 수 있는 외부추정을 가능하게 하여 다양한 컴퓨트 예산 하에서 효율적인 데이터 레시피 선택을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기