arXiv논문2026. 06. 03. 11:31

q0: Hyper-Epoch 사전 학습을 위한 기본 요소들

요약

멀티 에포크 학습의 효율성을 극대화하기 위해 단일 모델 대신 모델 집단의 예측을 집계하는 Hyper-Epoch(q0) 사전 학습 방식을 제안합니다. 순환 스케줄, 체인 증류, 학습된 사전 확률이라는 세 가지 요소를 통해 데이터 효율성을 획기적으로 높일 수 있습니다.

핵심 포인트

단일 모델 학습에서 모델 집단 탐색으로의 패러다임 전환
순환 스케줄을 통한 다양한 모델 궤적 수집
체인 증류를 통한 모델 품질의 복리 효과 구현
기존 앙상블 대비 최대 12.9배의 데이터 효율성 달성

고품질 텍스트의 공급보다 컴퓨팅 자원(compute)의 증가 속도가 더 빨라짐에 따라, 멀티 에포크(Multi-epoch) 학습이 현재 표준이 되고 있습니다. 하지만 단일 모델을 사전 학습(pretraining)하는 것은 컴퓨팅 예산이 소진되기 훨씬 전인 불과 몇 번의 패스(passes) 내에 포화 상태에 이릅니다. 우리는 이것이 단일 모델을 학습시키는 방향에서 모델의 집단(population)을 탐색하고 그들의 예측을 집계하는 방향으로의 개념적 전환을 요구한다고 주장합니다. 우리는 멀티 에포크 예산을 다양한 모델의 집단으로 전환하여, 이들의 결합된 예측이 단일 정제된 모델보다 더 낮은 검증 손실(validation loss)에 도달하게 하는 Hyper-Epoch 사전 학습(q0)을 소개합니다. q0는 세 가지 핵심 기본 요소(primitives)로 축소됩니다. 상관관계가 낮은 학습률(learning rate)과 가중치 감쇠(weight decay)를 사용하는 순환 스케줄(cyclic schedule)은 몇 개의 병렬 궤적으로부터 다양한 모델을 수집합니다. 체인 증류(Chain distillation)는 각 모델을 이전 모델에 대해 학습시켜 모델 품질이 집단 전체에 걸쳐 복리로 쌓이게 합니다. 홀드아웃 세트(held out set)에 맞춰 학습된 학습된 사전 확률(learned prior)은 어떠한 추론 예산에 대해서도 구성원을 선택하고 가중치를 부여합니다. 100M FineWeb 토큰으로 학습된 1.8B 파라미터 모델에서, q0는 단지 ${\sim}56$ 에포크(${\sim}4.6\times$ 적음)만 사용하여 강력한 256-에포크 앙상블(ensemble) 베이스라인과 일치하거나, 베이스라인의 앙상블 크기에 맞출 경우 ${\sim}67$ 에포크(${\sim}3.8\times$ 적음)만으로 일치하며, 그 이상으로 계속 개선됩니다. 이러한 이득은 Slowrun 설정 하에서 누적 ${\sim}12.9\times$의 데이터 효율성에 도달하며 다운스트림 벤치마크로 전이됩니다. 결정적으로, 최적의 할당은 예산에 따라 변화하므로, 우리는 단일 에포크부터 가장 큰 예산에 이르기까지 일반화(generalization)를 극대화하기 위해 주어진 에포크 예산을 어떻게 소비해야 하는지에 대한 처방적 레시피를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

q0: Hyper-Epoch 사전 학습을 위한 기본 요소들

요약

핵심 포인트

댓글