Efficient Pre-Training with Token Superposition
요약
본 논문은 대규모 언어 모델(LLM)의 비효율적인 사전 학습 문제를 해결하기 위해 '토큰 중첩(Token Superposition, TST)'이라는 간단한 플러그인 방법을 제안합니다. TST는 기존의 병렬성, 옵티마이저 등 핵심 구성 요소를 변경하지 않으면서도 FLOPs당 데이터 처리량을 크게 향상시키는 것이 특징입니다. 이 방법은 연속된 토큰들을 하나의 '가방(bag)'으로 결합하여 훈련하고, 표준 훈련으로 복구하는 두 단계로 이루어지며, 실제 실험에서 최대 2.5배의 사전 학습 시간 단축 효과를 입증했습니다.
핵심 포인트
- LLM 사전 학습은 비용이 많이 들고 비효율적이라는 문제점을 해결하기 위한 새로운 접근 방식입니다.
- 제안된 TST(Token Superposition)는 모델 아키텍처나 옵티마이저를 수정하지 않는 플러그인 형태의 방법론입니다.
- TST는 연속 토큰들을 하나의 '가방'으로 결합하고 다중 핫 크로스 엔트로피 목표 함수를 사용하여 효율적으로 훈련합니다.
- 실험 결과, TST는 베이스라인 대비 일관되게 높은 성능을 유지하면서도, 10B 규모 모델에서 최대 2.5배의 사전 학습 시간 단축 효과를 보였습니다.
대규모 언어 모델의 사전 학습은 종종 비용이 많이 들고 규모에 비례하여 비효율적이며, 높은 데이터 처리량을 달성하기 위해 복잡한 침투적인 수정이 필요합니다. 본 작업에서는 병렬성, 옵티마이저 (optimizer), 토큰라이저 (tokenizer), 데이터, 또는 모델 아키텍처를 변경하지 않고 사전 학습 동안 FLOPs 당 데이터 처리량을 크게 향상시키는 간단한 플러그인 방법을 제시합니다. TST 는 두 단계로 이루어집니다: (i) 많은 연속된 토큰을 하나의 가방으로 결합하고 다중 핫 크로스 엔트로피 (MCE) 목표 함수를 사용하여 훈련하는 매우 효율적인 중첩 단계, 및 (ii) 표준 훈련으로 복귀하는 복구 단계. 우리는 270M 과 600M 파라미터 규모의 TST 를 광범위하게 평가하고, 3B 와 10B A1B mixture of experts 모델에서 검증하여 다양한 설정에서 매우 견고함을 입증했습니다. 결국, TST 는 베이스라인 손실과 다운스트림 평가를 일관되게 상회하며, 동등한 손실 설정에서 10B A1B 규모에서는 총 사전 학습 시간을 최대 2.5 배까지 줄였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기