GH Trending릴리즈2026. 05. 16. 01:44

OpenBMB/MiniCPM

요약

MiniCPM 시리즈는 희소 어텐션(Sparse Attention)과 선형 어텐션(Linear Attention)을 결합한 혁신적인 하이브리드 아키텍처를 통해 장기 컨텍스트 모델링의 효율성과 성능을 극대화했습니다. MiniCPM-SALA는 백만 토큰 컨텍스트 처리를 위해 이 두 가지 메커니즘을 통합했으며, HyPE와 같은 기술적 개선을 통해 Qwen3-8B 대비 뛰어난 추론 속도와 메모리 효율성을 입증했습니다. OpenBMB는 NVIDIA와의 협력을 통해 9B 규모 모델의 1M 토큰 추론 한계에 도전하는 대규모 컴파일 최적화 경진대회를 개최하고 있습니다.

핵심 포인트

MiniCPM-SALA는 희소 어텐션과 선형 어텐션을 결합한 최초의 대규모 하이브리드 아키텍처입니다.
HyPE(Hybrid Positional Encoding)를 통해 긴 컨텍스트와 일반 능력을 모두 유지하며, Qwen3-8B 대비 장기 벤치마크에서 우위를 보였습니다.
MiniCPM 시리즈는 Transformer-to-Hybrid Continue Training 및 효율적인 추론 최적화를 통해 높은 성능과 메모리 효율성을 달성했습니다.
OpenBMB는 NVIDIA와 협력하여 교차 레이어 컴파일을 목표로 하는 대규모 9B 모델의 1M 토큰 추론 경진대회를 진행합니다.

MiniCPM 논문 | MiniCPM Wiki (중국어) | MiniCPM-V 저장소 | Discord 및 WeChat 참여 | 참여하기

참고

MiniCPM-SALA 아키텍처는 시작일 뿐입니다. 그 잠재력을 완전히 실현하기 위해서는 깊은 시스템 수준의 시너지와 교차 레이어 컴파일 최적화 (cross-layer compilation optimization)가 필요합니다.

OpenBMB는 SGLang 및 NVIDIA와 협력하여, 전용 NVIDIA 6000D 환경에서 **9B-규모, 1M-토큰 추론 (inference)**의 한계에 도전할 전 세계의 괴짜(geeks)들을 초대합니다.

💰
총 상금: >$100,000 USD (최고 상금: $89,000) - 🚀
목표: 교차 레이어 컴파일 (cross-layer compilation)을 통해 단일 및 멀티 배치 성능을 최적화합니다.
[2026.02.11]
MiniCPM-SALA가 출시되었습니다! 이는 백만 토큰 컨텍스트 모델링을 위해 희소 어텐션 (sparse attention)과 선형 어텐션 (linear attention)을 효과적으로 통합한 최초의 대규모 하이브리드 모델입니다. 🔥🔥🔥
[2025.09.29]
InfLLM-V2 논문이 공개되었습니다! 단 5B의 긴 텍스트 토큰만으로 희소 어텐션 모델을 학습할 수 있습니다. 🔥🔥🔥
[2025.09.05]
MiniCPM4.1 시리즈가 출시되었습니다! 이 시리즈는 학습 가능한 희소 어텐션을 갖춘 하이브리드 추론 모델로, 심층 추론 모드와 비추론 모드 모두에서 사용할 수 있습니다. 🔥🔥🔥
[2025.06.06] 출시
MiniCPM4! 이 모델은 동일한 규모에서 최적의 성능을 유지하면서 궁극적인 효율성 향상을 달성했습니다! 일반적인 엔드 사이드(end-side) 칩에서 5배 이상의 생성 가속을 달 수 있습니다! - [2024.09.05] 출시
MiniCPM3-4B! 이 모델은 Phi-3.5-mini-instruct 및 GPT-3.5-Turbo-0125를 능가하며, Llama3.1-8B-Instruct, Qwen2-7B-Instruct, GLM-4-9B-Chat과 같은 여러 7B-9B 파라미터 모델들과 대등한 성능을 보입니다. - [2024.07.05] 출시
MiniCPM-S-1B! 이 모델은 다운스트림 태스크 성능을 유지하면서 FFN 레이어에서 평균 87.89%의 희소성 (sparsity)을 달성하여 FFN FLOPs를 84% 감소시켰습니다. - [2024.04.11] 출시
MiniCPM-2B-128k, MiniCPM-MoE-8x2B 및 MiniCPM-1B! 저희 기술 블로그를 읽으려면 여기를 클릭하세요. - [2024.02.01] 출시
MiniCPM-2B!

이 모델은 공개 벤치마크(public benchmarks)에서 Mistral-7B와 유사한 성능을 보여주며(중국어, 수학 및 코드 능력에서는 더 나은 성능을 보임), 전반적으로 Llama2-13B, MPT-30B, Falcon-40B와 같은 모델보다 뛰어난 성능을 발휘합니다.

변경 사항 (Changelog)🔥
빠른 링크 (Quick Links)
모델 다운로드 (Model Downloads)
MiniCPM-SALA
MiniCPM4 및 MiniCPM4.1 시리즈
라이선스 (LICENSE)
기관 (Institutions)
인용 (Citation)

📋 클릭하여 모든 MiniCPM 시리즈 모델 보기

MiniCPM-SALA (Sparse Attention and Linear Attention)는 백만 토큰 컨텍스트 모델링 (million-token context modeling)을 위해 희소 어텐션 (Sparse Attention)과 선형 어텐션 (Linear Attention)을 효과적으로 통합한 최초의 대규모 하이브리드 모델입니다.

✅ 혁신적인 하이브리드 아키텍처 (Innovative Hybrid Architecture): 고충실도 장기 컨텍스트 모델링 (high-fidelity long context modeling)을 위한 25%의 희소 어텐션 (Sparse Attention, InfLLM-v2)과 전역적 효율성 (global efficiency)을 위한 75%의 선형 어텐션 (Linear Attention, Lightning Attention)을 시너지화합니다.

✅ 효율성의 벽을 허물다:

Transformer-to-Hybrid Continue Training- 사전 학습된 가중치 (Pre-trained weights)에 아키텍처 변환을 수행함으로써 콜드 스타트 학습 (Cold-start training)의 비효율성을 우회하며, 이를 통해 전체 학습 예산을 유사한 모델을 처음부터 학습시키는 것과 비교하여 약 25% 수준으로 절감합니다.

HyPE (Hybrid Positional Encoding)- 짧은 문맥과 긴 문맥 모두에서 성능을 조화롭게 유지합니다. 이를 통해 Qwen3-8B와 같은 최신 풀 어텐션 (Full-attention) 모델과 대등한 일반 능력(예: 지식, 수학, 코딩)을 유지하면서도, 여러 긴 문맥 벤치마크 (Long-context benchmarks)에서 상당한 우위를 달성할 수 있습니다.

Efficient Inference on Long Sequences- A6000D에서 256K 토큰의 시퀀스 길이일 때 Qwen3-8B 대비 최대 3.5배의 추론 속도를 달성합니다. 또한 NVIDIA A6000D 및 5090 GPU 모두에서 최대 1M 토큰의 문맥 길이로 추론을 지원하며, 이는 Qwen3-8B가 메모리 부족 (Out-of-memory, OOM) 오류로 인해 해당 길이에서 실패하는 것과 대조적입니다.

우리는 추론 속도와 메모리 효율성을 평가하기 위해 NVIDIA A6000D 및 RTX 5090 GPU에서 MiniCPM-SALA (9B)를 Qwen3-8B와 비교 벤치마킹했습니다. 결과는 상당한 성능 도약을 보여줍니다: MiniCPM-SALA는 첫 번째 토큰 생성 시간 (Time-to-first-token, TTFT)에서 최대 2.5배의 속도 향상을 달성할 뿐만 아니라, 풀 어텐션 (Full-attention) 아키텍처의 메모리 병목 현상을 극복합니다. Qwen3-8B가 확장된 길이에서 OOM 오류를 겪는 반면, MiniCPM-SALA는 단일 소비자용 RTX 5090에서 1M 토큰 문맥까지 성공적으로 확장하여, 엣지 하드웨어 (Edge hardware)에서의 초장문 문맥 추론을 효과적으로 대중화합니다.

MiniCPM-SALA는 관련된 대부분의 긴 문맥 벤치마크에서 유사한 규모의 다른 오픈 소스 LLM들을 지속적으로 능가합니다. 구체적으로, 모든 문맥 길이(최대 128K)에서 RULER 및 NoLiMa 테스트의 최고 점수를 기록했으며, 38.97이라는 가장 높은 전체 평균 점수를 유지하여 긴 문맥 정보 처리 능력에서 우수한 성능을 보여줍니다.

평가 결과, MiniCPM-SALA는 520K 토큰으로만 학습되었음에도 불구하고 2048K 컨텍스트 길이(context length)에서 81.6의 점수를 유지하며 효과적인 길이 외삽(length extrapolation) 능력을 보여줍니다. 이 모델은 YaRN와 같은 보조 기술 없이도 이를 달성했으며, 이는 아마도 희소 어텐션(sparse attention) 레이어의 NoPE 설정 덕분인 것으로 보입니다.

MiniCPM-SALA는 표준 벤치마크 전반에서 평균 76.53점을 기록하며, Qwen3-8B 및 Falcon-H1R-7B와 같은 유사 모델들을 능가합니다. 이 아키텍처는 지식(Knowledge), 코드(Code), 수학(Math) 분야에서 견고한 성능을 유지합니다.

최적의 성능을 달성하기 위해, Temperature=0.9를 사용할 것을 권장합니다.

저희 모델은 🤗 Hugging Face transformers와 즉시 호환됩니다. 다음과 같이 모델로 추론(inference)을 수행할 수 있습니다:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "openbmb/MiniCPM-SALA"
...

CUDA 12.x 이상
gcc/g++ 컴파일러
uv 패키지 매니저 (스크립트에서 확인 예정)

# 저장소 클론
git clone -b minicpm_sala https://github.com/OpenBMB/sglang.git
cd sglang
...

설치 스크립트는 다음 단계들을 수행합니다:

sglang_minicpm_sala_env 가상 환경(Python 3.12) 생성
3rdparty/ (infllmv2)로 종속성 클론 및 서브모듈(sparse_kernel) 초기화
MiniCPM-SALA (현재 저장소) 설치
infllmv2_cuda_impl 컴파일 및 설치
sparse_kernel 컴파일 및 설치
tilelang 및 flash-linear-attention 설치

# 환경 활성화
source sglang_minicpm_sala_env/bin/activate
# 추론 서버 실행 (MODEL_PATH를 실제 경로로 교체하세요)
...

파라미터 (Parameter)	설명 (Description)
`--trust-remote-code`	모델 내 커스텀 코드 허용
`--disable-radix-cache`	RadixAttention 접두사 캐시 (prefix cache) 비활성화
`--attention-backend minicpm_flashinfer`	MiniCPM FlashInfer 백엔드 사용
`--chunked-prefill-size 8192`	청크 단위 프리필 (Chunked prefill) 크기
`--max-running-requests 32`	최대 동시 요청 수
`--skip-server-warmup`	서버 웜업 (warmup) 건너뛰기
`--port 31111`	서버 포트
`--dense-as-sparse`	Dense-as-sparse 모드 사용

스크립트가 제대로 작동하지 않는 경우, 다음 단계를 따르세요:

# 0. uv가 설치되어 있는지 확인
pip install uv
# 1. 가상 환경 (venv) 생성
...

Q: CUDA 확장 기능 컴파일에 실패했나요?

CUDA 12 이상이 설치되어 있는지 확인하세요 (nvcc --version).
gcc / g++를 사용할 수 있는지 확인하세요.
만약 CXX가 clang++ -pthread로 설정되어 있다면, 수동으로 export CXX=g++를 실행하세요.

MiniCPM 4.1-8B는 학습 가능한 희소 어텐션 (sparse attention)을 갖춘 최초의 오픈 소스 추론 LLM (Large Language Model)입니다:

✅ 강력한 추론 능력: 15개 작업에서 유사한 크기의 모델들을 능가합니다!

✅ 빠른 생성: 추론 시 디코딩 속도가 3배 향상되었습니다.

✅ 효율적인 아키텍처: 학습 가능한 희소 어텐션 (sparse attention), 빈도 순위 기반의 투기적 디코딩 (frequency-ranked speculative decoding)

MiniCPM4 및 MiniCPM4.1 시리즈는 엔드 사이드 디바이스 (end-side devices)를 위해 명시적으로 설계된 매우 효율적인 대규모 언어 모델 (LLMs)이며, 모델 아키텍처, 학습 데이터, 학습 알고리즘, 그리고 추론 시스템이라는 네 가지 핵심 차원의 체계적인 혁신을 통해 이러한 효율성을 달성합니다.

🏗️ 효율적인 모델 아키텍처 (Efficient Model Architecture):
InfLLM-V2 -- 학습 가능한 희소 어텐션 메커니즘 (Trainable Sparse Attention Mechanism): 128K 긴 텍스트 처리 시 각 토큰이 5% 미만의 토큰과만 관련성을 계산하면 되는 학습 가능한 희소 어텐션 메커니즘 아키텍처를 채택하여, 긴 텍스트에 대한 계산 오버헤드를 크게 줄였습니다 (InfLLM-V2 Training Kernels)
🧠

효율적인 학습 알고리즘 (Efficient Learning Algorithms):

Model Wind Tunnel 2.0 -- 효율적인 예측 가능한 스케일링 (Efficient Predictable Scaling): 다운스트림 태스크 (downstream tasks)의 성능에 대한 스케일링 예측 방법을 도입하여, 더욱 정밀한 모델 학습 구성 탐색을 가능하게 합니다.
BitCPM -- 궁극의 삼진 양자화 (Ultimate Ternary Quantization): 모델 파라미터 비트 폭 (bit-width)을 3개의 값으로 압축하여, 90%의 극단적인 모델 비트 폭 감소를 달성합니다.
효율적인 학습 엔지니어링 최적화 (Efficient Training Engineering Optimization): FP8 저정밀도 연산 기술을 멀티 토큰 예측 (Multi-token Prediction) 학습 전략과 결합하여 채택합니다.

📚

고품질 학습 데이터 (High-Quality Training Data):

UltraClean -- 고품질 사전 학습 (Pre-training) 데이터 필터링 및 생성: 효율적인 데이터 검증을 기반으로 반복적인 데이터 정제 전략을 구축하며, 고품질 중국어 및 영어 사전 학습 데이터셋인 UltraFinweb을 오픈 소스로 공개합니다.
UltraChat v2 -- 고품질 지도 미세 조정 (Supervised Fine-tuning) 데이터 생성: 지식 집약적 데이터, 추론 집약적 데이터, 지시 이행 (instruction-following) 데이터, 긴 텍스트 이해 데이터, 도구 호출 (tool calling) 데이터를 포함한 다차원을 아우르는 대규모 고품질 지도 미세 조정 데이터셋을 구축합니다.

⚡

효율적인 추론 및 배포 시스템 (Efficient Inference and Deployment System):

CPM.cu -- 경량화 및 효율적인 CUDA 추론 프레임워크 (Lightweight and Efficient CUDA Inference Framework): 희소 어텐션 (sparse attention), 모델 양자화 (model quantization), 그리고 투기적 샘플링 (speculative sampling)을 통합하여 효율적인 프리필링 (prefilling) 및 디코딩 (decoding)을 달성합니다 (Inference Kernels and Framework).
ArkInfer -- 크로스 플랫폼 배포 시스템 (Cross-platform Deployment System): 여러 백엔드 환경에 걸친 효율적인 배포를 지원하며, 유연한 크로스 플랫폼 적응 능력을 제공합니다.

두 가지 전형적인 엔드 사이드 (end-side) 칩인 Jetson AGX Orin과 RTX 4090에서, MiniCPM4와 MiniCPM4.1은 긴 텍스트 처리 태스크에서 비슷한 크기의 모델들과 비교하여 현저히 빠른 처리 속도를 보여줍니다. 텍스트 길이가 길어질수록 MiniCPM4와 MiniCPM4.1의 효율성 우위는 더욱 두드러집니다. Jetson AGX Orin 플랫폼에서 MiniCPM4와 MiniCPM4.1은 Qwen3-8B와 비교하여 약 7배의 디코딩 속도 향상을 달성합니다.

MiniCPM4.1은 추론 (reasoning)에서 3배의 디코딩 속도 향상을 달성합니다.

MiniCPM4는 8B 및 0.5B 파라미터 규모의 온디바이스 (end-side) 버전을 출시하며, 두 버전 모두 각 카테고리에서 동급 최고의 성능을 달성했습니다.

MiniCPM4.1은 8B 파라미터 규모의 온디바이스 (end-side) 버전을 출시하며, 심층 추론 (deep reasoning) 모드에서 동급 최고의 성능을 달성했습니다.

MiniCPM4는 32K 긴 텍스트로 사전 학습 (pre-trained)되었으며, YaRN 기술을 통해 길이 확장 (length extension)을 달성했습니다. 128K 긴 텍스트의 건더기 찾기 (needle-in-a-haystack) 작업에서 MiniCPM4는 뛰어난 성능을 보여줍니다. MiniCPM4.1은 64K 긴 텍스트로 사전 학습 (pre-trained)되었으며, YaRN 기술을 통해 길이 확장 (length extension)을 달성했습니다. 128K 긴 텍스트의 건더기 찾기 (needle-in-a-haystack) 작업에서 MiniCPM4.1은 뛰어난 성능을 보여줍니다.

MiniCPM 4.1은 다음과 같은 프레임워크와 함께 사용할 수 있습니다: Huggingface Transformers, SGLang, vLLM, 그리고 CPM.cu. 궁극의 추론 속도를 위해서는 CPM.cu를 강력히 권장합니다.

MiniCPM4/MiniCPM4.1은 밀집 어텐션 (dense attention) 추론과 희소 어텐션 (sparse attention) 추론 모드를 모두 지원하며, vLLM과 SGLang은 현재 밀집 추론 (dense inference) 모드만 지원합니다. 희소 추론 (sparse inference) 모드를 사용하려면 Huggingface Transformers와 CPM.cu를 사용하십시오.

밀집 어텐션 (Dense attention) 추론: vLLM, SGLang, Huggingface Transformers
희소 어텐션 (Sparse attention) 추론: Huggingface Transformers, CPM.cu

MiniCPM4.1은 심층 추론 (deep reasoning) 모드와 비추론 (non-reasoning) 모드 모두에서 사용할 수 있는 하이브리드 추론 (hybrid reasoning) 모드를 지원합니다. 하이브리드 추론 모드를 활성화하려면, 사용자는 tokenizer.apply_chat_template에서 enable_thinking=True로 설정하여 하이브리드 추론 모드를 활성화할 수 있으며, enable_thinking=False로 설정할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenBMB/MiniCPM

요약

핵심 포인트

📋 클릭하여 모든 MiniCPM 시리즈 모델 보기

댓글