openPangu-2.0-Flash README_EN.md

서론 (Introduction)
openPangu-2.0-Flash는 Ascend에서 학습된 MoE (Mixture of Experts) 모델입니다. 이 모델은 총 92B (920억 개)의 파라미터를 보유하고 있으며, 활성화되는 파라미터는 6B (60억 개)입니다. 컨텍스트 길이 (Context length)는 512k입니다. 총 사전 학습 (Pretraining) 데이터는 34T (34조 개)의 토큰을 포함합니다. 사후 학습 (Post-training) 과정에서 openPangu-2.0-Flash는 느린 사고 및 빠른 사고 능력을 갖춘 통합 SFT (Supervised Fine-Tuning), 다중 전문가 RL (Reinforcement Learning) 학습, 그리고 여러 RL 전문가를 결합한 온-폴리시 증류 (On-policy distillation)를 통해 학습되었습니다.
아키텍처 (Architecture)
openPangu-2.0-Flash는 몇 가지 주요한 아키텍처 개선 사항을 도입했습니다:

효율적인 어텐션 (Efficient attention): 모델은 효율적인 추론을 위해 MLA (Multi-head Latent Attention)를 유지하며, DSA (Dynamic Sparse Attention)와 SWA (Sliding Window Attention)를 1:2 레이어 비율로 결합합니다. SWA 레이어는 로컬 윈도우 모델링 (Local-window modeling)을 처리하고, DSA 레이어는 희소한 글로벌 컨텍스트 (Sparse global context)를 포착합니다. 이 설계는 정확도를 유지하면서 긴 컨텍스트 추론 (Long-context inference) 시 연산량, 메모리 점유율 및 메모리 액세스 비용을 낮춥니다.
잔차 토폴로지 (Residual topology): 기존의 잔차 경로 (Residual path)는 4-스트림 mHC 설계로 대체되어, 표현 다양성 (Representation diversity)과 일반화 (Generalization) 능력을 향상시킵니다.
다중 토큰 예측 (Multi-token prediction, MTP): 모델은 3개의 MTP 헤드를 사용하여 단계당 3개의 추가 토큰을 초안(Draft)으로 작성하며, 이를 통해 셀프-스펙큘러티브 디코딩 (Self-speculative decoding)을 통한 더 빠른 추론을 가능하게 합니다.
옵티마이저 (Optimizer): 학습에는 더 빠른 수렴을 위해 Muon 옵티마이저를 사용합니다.

submitted by /u/jacek2023
[link] [comments]

Insights

openPangu-2.0-Flash README_EN.md

요약

핵심 포인트

댓글

Claude.ai에서 설정해야 할 3가지 개인화 기능【2026년 최신】

Micron, SCA가 광범위한 수익 전략이 됨에 따라 GM과 장기 계약 체결

Claude Sonnet 5: 이것이 AI 에이전트를 위한 프롬프트 인젝션 (Prompt Injection)의 종말인가?

모든 프로토콜이 AI 에이전트의 DNS가 되고자 하지만, 그들이 놓치고 있는 것

Micron, SCA가 광범위한 수익 전략이 됨에 따라 GM과 장기 계약 체결

Claude Sonnet 5: 이것이 AI 에이전트를 위한 프롬프트 인젝션 (Prompt Injection)의 종말인가?

모든 프로토콜이 AI 에이전트의 DNS가 되고자 하지만, 그들이 놓치고 있는 것