BitCPM-CANN: Ascend NPU 기반의 네이티브 1.58비트 대규모 언어 모델(LLM) 학습
요약
Huawei Ascend NPU 환경에서 1.58비트 삼진 양자화 인식 학습(QAT)을 구현한 BitCPM-CANN 연구를 소개합니다. 기존 GPU 기반 파이프라인을 CANN 및 Megatron-LM으로 포팅하여, 전정밀도 모델 성능의 최대 97.2%를 유지하면서도 메모리 사용량을 획기적으로 줄였습니다.
핵심 포인트
- Ascend NPU 기반 최초의 엔드 투 엔드 1.58비트 LLM 학습 시스템 구현
- 전정밀도 모델 대비 최대 97.2%의 성능 유지 및 메모리 약 6~8배 절감
- 학습 처리량 오버헤드를 4.5% 수준으로 최소화하여 효율성 확보
- 1B~8B 규모 모델에서 삼진 가중치의 실질적 추론 능력 입증
논문: https://github.com/OpenBMB/MiniCPM/blob/main/docs/BitCPM_CANN.pdf
초록 (Abstract)
우리는 Huawei Ascend NPU 플랫폼에서 1.58비트(ternary, 삼진) 양자화 인식 학습 (Quantization-Aware Training, QAT)에 대한 체계적인 패밀리 수준 연구인 BitCPM-CANN을 선보입니다. 극도로 낮은 비트의 LLM(Large Language Model)이 직면한 두 가지 실질적인 격차, 즉 '삼진 가중치(ternary weights)가 온디바이스 규모의 복잡한 추론 작업에서 능력을 유지할 수 있는가'와 'CUDA 생태계 외부에서 어떻게 엔드 투 엔드(end-to-end) 1.58비트 학습을 네이티브하게 구현할 것인가'를 해결하기 위해, 우리는 기존의 GPU 기반 파이프라인을 CANN, MindSpeed, 그리고 Megatron-LM으로 포팅했습니다. 또한 아키텍처와 사전 학습 데이터 측면에서 기존의 Full-precision(전정밀도) MiniCPM4 모델과 엄격하게 일치하도록 설계된 네 가지 모델(BitCPM-CANN-0.5B/1B/3B/8B)을 학습시켰습니다. 상식 추론, 도메인 지식, 수학 및 추론을 아우르는 11개의 벤치마크 전반에 걸쳐 1B, 3B, 8B 변체들은 전정밀도 성능의 95.7%~97.2%를 유지했으며, 3B 변체는 BBH에서 대등한 성능을 달성했고 3B/8B 변체는 GSM8K의 거의 모든 성능을 회복했습니다. 0.5B 변체는 90.1%를 유지했으며, 남은 격차는 수학 분야에 집중되어 있어, 10억 파라미터 미만 규모에서는 양자화기(quantizer)가 아닌 모델 용량(capacity)이 병목 현상임을 나타냅니다. 우리의 QAT 통합은 학습 처리량(throughput) 오버헤드를 단 4.5%만 추가하여(NPU당 148 vs 155 TFLOP/s), 삼진 학습을 기본 구성으로 사용할 수 있게 만드는 동시에, 추론 시 최대 8배의 가중치 메모리 감소(스케일링 인자를 포함한 엔드 투 엔드 기준 약 6배)를 가능하게 합니다. 우리가 알기로 이는 국내(중국) NPU에서 8B 파라미터 규모까지 확장된 최초의 엔드 투 엔드 1.58비트 학습 시스템이며, Ascend 생태계를 위한 재사용 가능한 저비트 학습 인프라를 제공합니다.
BitCPM-CANN은 MiniCPM4와 동일한 데이터로 삼진(ternary) 방식으로 처음부터 학습되었습니다. MiniCPM4 8B는 36조 개의 토큰으로 학습된 Qwen3-8B와 대등한 성능을 단 8조 개의 토큰만으로 달성했습니다. (MiniCPM4는 작년에 출시되었습니다: https://arxiv.org/abs/2506.07900)
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기