openPangu-2.0-Flash README_EN.md
요약
Ascend에서 학습된 92B 파라미터 규모의 MoE 모델인 openPangu-2.0-Flash를 소개합니다. MLA, DSA, SWA를 결합한 효율적인 어텐션 구조와 MTP 헤드를 통한 빠른 추론 성능을 특징으로 합니다.
핵심 포인트
- 92B 파라미터 규모의 MoE 모델로 활성 파라미터는 6B임
- 512k의 긴 컨텍스트 길이를 지원함
- MLA, DSA, SWA 결합을 통해 긴 컨텍스트 추론 효율성 극대화
- MTP 헤드를 활용한 셀프-스펙큘러티브 디코딩으로 추론 속도 향상
- Muon 옵티마이저를 사용하여 빠른 학습 수렴 달성
-
서론 (Introduction)
openPangu-2.0-Flash는 Ascend에서 학습된 MoE (Mixture of Experts) 모델입니다. 이 모델은 총 92B (920억 개)의 파라미터를 보유하고 있으며, 활성화되는 파라미터는 6B (60억 개)입니다. 컨텍스트 길이 (Context length)는 512k입니다. 총 사전 학습 (Pretraining) 데이터는 34T (34조 개)의 토큰을 포함합니다. 사후 학습 (Post-training) 과정에서 openPangu-2.0-Flash는 느린 사고 및 빠른 사고 능력을 갖춘 통합 SFT (Supervised Fine-Tuning), 다중 전문가 RL (Reinforcement Learning) 학습, 그리고 여러 RL 전문가를 결합한 온-폴리시 증류 (On-policy distillation)를 통해 학습되었습니다. -
아키텍처 (Architecture)
openPangu-2.0-Flash는 몇 가지 주요한 아키텍처 개선 사항을 도입했습니다:
효율적인 어텐션 (Efficient attention): 모델은 효율적인 추론을 위해 MLA (Multi-head Latent Attention)를 유지하며, DSA (Dynamic Sparse Attention)와 SWA (Sliding Window Attention)를 1:2 레이어 비율로 결합합니다. SWA 레이어는 로컬 윈도우 모델링 (Local-window modeling)을 처리하고, DSA 레이어는 희소한 글로벌 컨텍스트 (Sparse global context)를 포착합니다. 이 설계는 정확도를 유지하면서 긴 컨텍스트 추론 (Long-context inference) 시 연산량, 메모리 점유율 및 메모리 액세스 비용을 낮춥니다.
잔차 토폴로지 (Residual topology): 기존의 잔차 경로 (Residual path)는 4-스트림 mHC 설계로 대체되어, 표현 다양성 (Representation diversity)과 일반화 (Generalization) 능력을 향상시킵니다.
다중 토큰 예측 (Multi-token prediction, MTP): 모델은 3개의 MTP 헤드를 사용하여 단계당 3개의 추가 토큰을 초안(Draft)으로 작성하며, 이를 통해 셀프-스펙큘러티브 디코딩 (Self-speculative decoding)을 통한 더 빠른 추론을 가능하게 합니다.
옵티마이저 (Optimizer): 학습에는 더 빠른 수렴을 위해 Muon 옵티마이저를 사용합니다.
submitted by /u/jacek2023
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기