arXiv논문2026. 06. 08. 10:55

가역적 기반(Reversible Foundations): 상태 보존 스케일링을 통한 120B Sparse MoE 학습

요약

단일 8-GPU 노드에서 120B 규모의 Sparse MoE 모델을 효율적으로 학습시키는 '가역적 기반' 방법론을 제안합니다. 가역적 순환 스택과 TQP 전략을 통해 메모리 사용량을 최적화하며, 작은 모델에서 대형 모델로 단계별 성장을 구현했습니다.

핵심 포인트

가역적 순환 스택을 통한 활성값 메모리 유지
TQP 전략으로 옵티마이저 상태를 약 45배 절감
단일 노드에서 120B MoE 모델 엔드 투 엔드 학습 성공
작은 시드 모델로부터 단계적 가중치 성장 방식 채택

본 논문은 단일 8-GPU 노드에서 수천억 개의 파라미터를 가진 희소 전문가 혼합(Sparse Mixture of Experts, MoE) 모델을 엔드 투 엔드(end-to-end)로 학습시킨 결과를 보고합니다. LightningLM 0.1V는 작은 밀집(dense) 시드 모델로부터 5B 및 9B MoE를 거쳐, top-12 라우팅(routing) 하에 460개의 라우팅된 전문가를 가진 120B 모델에 이르기까지 4단계로 성장하는 순환 백본(recurrence-backbone) 언어 모델 제품군입니다. 각 대형 모델은 더 작은 모델의 학습된 가중치로부터 성장하며, 활성 파라미터(active parameters)는 밀집 시드의 1.78B에서 120B 모델의 5.93B(저장된 118.67B의 약 5%)까지 단조 증가합니다. 전체 계보(lineage)는 단일 노드에서 실행되며, 더 큰 단계에서는 8K 컨텍스트(context)를 사용하며, 120B 규모에서 1.78의 출시 학습 손실(training loss)에 도달했습니다. 본 논문은 시스템 및 경험 보고서입니다. 내용은 세 가지 분야를 중심으로 구성됩니다. 가역성(Reversibility): 가역적 순환 스택(reversible recurrence stack)은 활성값(activations)을 저장하는 대신 역전파(backward pass) 시에 이를 재구성하여, 모델이 성장함에 따라 활성값 메모리를 일정하게 유지합니다. 상태 보존 성장(State-preserving growth): 각 확장 단계(밀집에서 MoE로, 얕은 구조에서 깊은 구조로, 적은 수의 전문가에서 많은 수의 전문가로)는 잘못되었을 때 발생하는 실패 사례와 함께 재현 가능한 원칙으로 제시됩니다. 여러 실패 사례는 소리 없이(silent) 발생합니다. 단일 노드 경제성(Single-node economics): 120B 모델은 TQP를 통해 학습됩니다. TQP는 양자화된 기본 전문가 가중치(quantized base expert weights)와 학습된 저차원 어댑터(low-rank adapters)를 사용하는 전략으로, 라우팅된 전문가에 상주하는 100B 이상의 파라미터 대신 2.26B의 어댑터 파라미터에 옵티마이저 상태(optimizer state)를 실어 나름으로써 전문가 경로의 옵티마이저 상태를 약 45배 절감합니다. 본 연구의 참신함은 개별적인 원시 기술(primitive)이 아닌, 이미 알려진 원시 기술들의 통합에 있습니다. 즉, 단일 노드에서 엔드 투 엔드로 실행되는 하나의 성장 계보를 실무자 수준에서 문서화하였으며, 타겟 역량(다국어 인도어 능력, 코드)이 구조적으로 학습되었음을 입증하기 위해 도메인별 홀드아웃 손실(held-out loss)을 증거로 제시합니다. 모델 제품군, 토크나이저(tokenizer) 및 학습 코드가 공개되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가역적 기반(Reversible Foundations): 상태 보존 스케일링을 통한 120B Sparse MoE 학습

요약

핵심 포인트

댓글