arXiv논문2026. 04. 28. 22:47

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

요약

본 논문은 기존 Transformer LLM의 강력한 짧은 컨텍스트 능력을 유지하면서 긴 컨텍스트 처리 능력을 효율적으로 확장하는 '업사이클링(upcycling)' 방법을 제안합니다. 연구팀이 개발한 HyLo (HYbrid LOng-context)는 아키텍처 적응, Multi-Head Latent Attention (MLA), 그리고 선형 블록(Mamba2 또는 Gated DeltaNet)을 결합하여 기존 모델을 하이브리드 구조로 전환하는 레시피입니다. 이 방법을 통해 사용 가능한 컨텍스트 길이를 크게 확장하고, 적은 양의 데이터와 훈련으로도 강력한 성능을 입증했습니다.

핵심 포인트

HyLo는 기존 Transformer LLM 체크포인트를 재사용하여 긴 컨텍스트 능력을 개선하는 '업사이클링' 접근 방식을 제시합니다.
핵심 아키텍처는 MLA와 선형 블록(예: Mamba2, Gated DeltaNet)을 결합한 하이브리드 구조를 채택합니다.
이 방법은 기존 모델의 짧은 컨텍스트 성능을 유지하면서도 컨텍스트 길이를 최대 32배 확장할 수 있습니다.
HyLo는 적은 학습 토큰(예: JetNemotron 대비 10B 토큰)으로도 강력한 추론 및 상식 추론 능력을 보여주며, 기존 베이스라인을 압도합니다.

효율적인 Transformer 구성 요소와 선형 시퀀스 모델링 블록 (linear sequence modeling blocks) 을 결합한 하이브리드 시퀀스 모델은 순수 Transformer 의 유망한 대안이지만, 대부분 기존 Transformer 체크포인트를 재사용하지 않고从头부터 사전 학습 (pretrained from scratch) 되어 있습니다. 우리는 짧은 컨텍스트 품질을 유지하면서 긴 컨텍스트 능력을 개선하는 동시에 사전 학습된 Transformer LLM 을 하이브리드 아키텍처로 전환하는 실용적인 경로를 '업사이클링 (upcycling)'으로 연구합니다. 우리의 솔루션은 extit{HyLo} (HYbrid LOng-context) 로 명명하며, 이는 아키텍처 적응과 효율적인 Transformer 블록, 멀티헤드 잠재적 주의력 (Multi-Head Latent Attention, MLA), 그리고 선형 블록 (Mamba2 또는 Gated DeltaNet) 을 결합하고, 단계별 긴 컨텍스트 학습 및 교사 유도 디스틸레이션 (teacher-guided distillation) 을 통한 안정적인 최적화를 포함하는 긴 컨텍스트 업사이클링 레시피입니다. HyLo 는 효율적인 포스트-트레이닝을 통해 사용 가능한 컨텍스트 길이를 최대 $32 imes$ 확장하며, exttt{vLLM} 추론 스택에서 2M 토큰의 프릴 (prefill) 및 디코딩을 가능하게 합니다. 반면 유사한 규모의 Llama 베이스라인은 64K 컨텍스트를 넘어 메모리 부족 오류가 발생합니다. 1B 와 3B 규모 설정 (Llama 기반 및 Qwen 기반 변형) 에 걸쳐 HyLo 는 일관되게 강력한 짧은 컨텍스트와 긴 컨텍스트 성능을 제공하며, RULER 와 같은 긴 컨텍스트 평가에서 최신 업사이클링 하이브리드 베이스라인을 압도적으로 능가합니다. 특히 유사한 규모에서 HyLo-Qwen-1.7B 는 400B 토큰으로 학습된 JetNemotron 보다 10B 토큰만으로 학습되어도 GSM8K, Lm-Harness 공통 상식 추론 및 RULER-64K 에서 유의미하게 더 나은 성능을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

요약

핵심 포인트

댓글