Huawei, 소비자용 하드웨어에서 구동 가능한 92B MoE 모델 openPangu 2.0 Flash 오픈 소스 공개
요약
Huawei가 92B 규모의 MoE 모델인 openPangu-2.0-Flash를 오픈 소스로 공개했습니다. 이 모델은 토큰당 6B의 활성 파라미터만 사용하여 소비자용 하드웨어에서도 효율적인 구동이 가능합니다.
핵심 포인트
- 92B 총 파라미터 중 6B만 활성화되는 고효율 MoE 구조
- 단일 고성능 GPU에서 구동 가능한 로컬 배포 최적화
- 중국어 추론 및 코딩 작업에서 강력한 성능 입증
- 7월 말 505B 규모의 Pro 버전 출시 예정
Huawei는 2026년 6월 30일, 토큰당 **60억 개의 활성 파라미터 (active parameters)**만을 사용하는 920억 파라미터 규모의 Mixture-of-Experts (MoE) 모델인 openPangu-2.0-Flash를 공식적으로 오픈 소스화하며 과감한 행보를 보였습니다. 이러한 희소성 (sparsity) 덕분에 이 모델은 여러분이 이미 보유하고 있을 법한 하드웨어에서도 구동됩니다.
무엇이 대단한가요?
대부분의 프런티어 모델 (frontier model) 관련 이슈가 Claude Fable 5의 수출 금지 롤러코스터와 DeepSeek V4의 향후 가격 분할에 집중되어 있는 동안, Huawei는 openPangu 2.0 체제 아래 하나가 아닌 두 개의 모델을 조용히 출시했습니다:
- openPangu-2.0-Flash — 6월 30일 오픈 소스 공개. 총 92B, 활성 6B. Apache 스타일 라이선스. 현재 Hugging Face에서 가중치 (weights) 확인 가능.
- openPangu-2.0-Pro — 총 505B, 활성 18B 파라미터. 7월 말 추론 (inference) 코드와 함께 출시 예정.
Flash 버전은 이미 다운로드 및 로컬 배포가 가능합니다. 이를 중국판 "Phi-4" 모멘트로 생각하면 됩니다. 단일 고성능 GPU에서 구동될 만큼 작으면서도, 크기가 5배 더 큰 모델들과 경쟁할 수 있을 만큼 똑똑한 모델입니다.
제대로 구현된 MoE 아키텍처
92B/6B 희소성 비율 (토큰당 파라미터의 약 6.5%만 활성화됨)은 추론 (inference)이 매우 빠르다는 것을 의미합니다. FLOPs 측면에서는 7B 밀집 (dense) 모델과 유사하지만, 훨씬 더 큰 네트워크의 지식 용량을 갖추고 있습니다. r/LocalLLaMA의 초기 커뮤니티 벤치마크에 따르면, 중국어 추론 및 코딩 작업에서 강력한 성능을 보여주며 영어 결과도 준수합니다.
이것이 중요한 이유
Huawei는 장기적인 게임을 하고 있습니다. 지금 Flash 버전을 오픈 소스화하고 곧이어 거대한 Pro 버전을 출시함으로써, Meta가 Llama를 통해 사용했던 것과 동일한 전략으로 Pangu 아키텍처를 중심으로 한 생태계를 구축하고 있습니다. 미국-중국 AI 공급망 밖에 있는 개발자들에게, 이는 DeepSeek를 제외하고 중국 하드웨어 거인이 내놓은 최초의 진정으로 경쟁력 있는 오픈 웨이트 (open-weight) 모델입니다.
7월에 출시될 Pro 버전 (505B/18B 활성)이 주목해야 할 대상입니다. 만약 이 모델이 벤치마크에서 Llama 4 Ultra를 능가하거나 대등한 성능을 보여준다면, 흐름은 바뀔 것입니다. 중국은 단순히 따라잡고 있는 것이 아니라, 미국이 수출 통제를 논의하는 동안 모든 것을 오픈 소스로 공개하고 있습니다.
가중치(weights) 받기: Hugging Face로 이동하여 openPangu-2.0-Flash를 검색하세요. 여러분의 로컬 GPU가 고마워할 것입니다.
— AI Release Reporter
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기