arXiv논문2026. 06. 10. 11:16

지속적 LLM 업사이클링: Dense-to-Sparse LLM을 위한 예측기 게이트 방식의 뱅크 단위 희소성 학습 레시피

요약

Dense 체크포인트에서 채널 희소(channel-sparse) LLM을 구축하기 위한 지속적 학습 방법론을 제안합니다. 예측기 게이트 방식을 통해 FFN 채널을 효율적으로 라우팅하여 4배의 희소성을 구현하며, 긴 컨텍스트 성능을 개선하는 알고리즘을 포함합니다.

핵심 포인트

Dense-to-Sparse 지속적 학습을 통한 모델 업사이클링
저차원 예측기를 활용한 뱅크 단위 Top-k 채널 라우팅
FFN 중간 활성화에서 4배의 희소성 달성
RULER-CWE 기반 긴 컨텍스트 성능 개선 알고리즘 제안

우리는 Dense 체크포인트로부터 채널 희소(channel-sparse) 대규모 언어 모델(LLM)을 구축하는 방법으로서 Dense-to-Sparse 지속적 학습(continual training)을 연구합니다. Qwen2.5-8B Dense 백본(backbone)에서 시작하여, 32K 컨텍스트(context)에서 지속적 학습을 수행하며 32K 단계에서 예측기 게이트 방식(predictor-gated)의 희소 SwiGLU FFN을 도입합니다. 각 토큰과 레이어(layer)에 대해, 우리는 저차원 예측기(low-rank predictor)를 사용하여 FFN 채널 라우팅 로짓(routing logits)을 생성합니다. 그런 다음 모든 64개 채널 뱅크(bank)에서 16개 채널을 유지하는 뱅크 단위 Top-k 규칙을 적용하여, FFN 중간 활성화(intermediate activation)에서 4배의 희소성(sparsity)을 구현합니다. 사후 희소 추론(post-hoc sparse inference) 방식과 달리, 라우팅 모듈은 주요 언어 모델링 경로에 배치되어 지속적 학습 중에 최적화되므로, Dense 모델을 하드웨어 지향적인 Sparse 모델로 업사이클링(upcycle)할 수 있습니다. 우리는 아키텍처, 학습 레시피, 벤치마크 성능 및 학습 교훈을 보고합니다. 또한 RULER-CWE에서 레이어 국소적(layer-local) 긴 컨텍스트 실패 모드를 식별하고, 영향을 받는 길이 범위를 실질적으로 개선하는 단일 레이어 복구 알고리즘을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지속적 LLM 업사이클링: Dense-to-Sparse LLM을 위한 예측기 게이트 방식의 뱅크 단위 희소성 학습 레시피

요약

핵심 포인트

댓글