본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 16. 21:10

OpenBMB/MiniCPM-V

요약

MiniCPM-V와 MiniCPM-o는 강력한 성능과 기기에서의 효율적인 배포(efficient deployment)를 목표로 설계된 멀티모달 LLM 시리즈입니다. MiniCPM-V 4.6은 1.3B 파라미터 규모에 시각적 인코딩 계산 비용을 50% 이상 절감하는 기술을 적용하여, iOS, Android 등 일반 모바일 플랫폼에서의 초효율적인 이미지/비디오 이해를 가능하게 합니다. MiniCPM-o 4.5는 전이중(full-duplex) 멀티모달 라이브 스트리밍 기능을 통해 실시간으로 보고, 듣고, 말하는 옴니모달 상호작용을 제공하며, Gemini 2.5 Flash에 근접한 성능을 보여줍니다.

핵심 포인트

  • MiniCPM-V는 1.3B 파라미터 규모로 높은 효율성을 자랑하며, 모바일 플랫폼(iOS, Android 등)에서의 배포가 용이합니다.
  • MiniCPM-V 4.6은 intra-ViT 조기 압축 기술을 활용하여 시각적 인코딩 비용을 50% 이상 절감하고 혼합 토큰 압축률을 지원합니다.
  • MiniCPM-o 4.5는 전이중(full-duplex) 멀티모달 라이브 스트리밍 기능을 통해 실시간 오디오/비디오 상호작용에 최적화되었습니다.
  • MiniCPM-o 4.5의 성능은 Gemini 2.5 Flash와 유사하며, 능동적이고 다재다능한 옴니모달 대화를 지원합니다.

휴대폰에서 초효율적인 이미지 및 비디오 이해를 위한 포켓 사이즈 MLLM

中文 |
English

MiniCPM-V 4.6 🤗 🤖 📱 | MiniCPM-o 4.5 🤗 📞 🤖 | 📄 Technical Report | 🍳 Cookbook

MiniCPM-VMiniCPM-o는 **강력한 성능과 기기에서의 효율적인 배포 (efficient deployment)**를 위해 설계된 멀티모달 LLM (Multimodal LLM) 시리즈입니다. MiniCPM-V는 이미지, 비디오 및 텍스트 입력을 아우르는 효율적인 시각-언어 이해 (vision-language understanding)에 집중합니다. MiniCPM-o는 스트리밍 비디오 및 오디오 입력과 텍스트 및 음성 출력을 결합하여 실시간 엔드-투-엔드 (end-to-end) 옴니모달 (omnimodal) 상호작용으로 제품군을 확장합니다. 현재 이 시리즈에서 가장 주목할 만한 모델은 다음과 같습니다:

MiniCPM-V 4.6: 🔥🔥🔥 MiniCPM-V 시리즈 중 가장 최신의 가장 효율적인 모델입니다. 총 1.3B 파라미터를 보유하며, 성능 면에서는 Gemma4-E2B-it와 같은 더 큰 모델을 능가하는 동시에, Qwen3.5-0.8B와 같은 더 작은 모델보다 우수한 효율성(약 1.5배의 토큰 처리량 달성)을 보여줍니다. LLaVA-UHD v4의 최신 **intra-ViT 조기 압축 기술 (intra-ViT early compression technique)**을 기반으로 하여, MiniCPM-V 4.6은 시각적 인코딩 계산 비용을 50% 이상 절감하며, 다양한 작업에서 더 유연한 성능-효율성 트레이드오프 (performance-efficiency trade-off)를 위해 **혼합 4x/16x 시각적 토큰 압축률 (mixed 4x/16x visual token compression rate)**을 지원합니다. 이 모델은 에지 적응 (edge adaptation) 코드가 오픈 소스로 공개되어 있으며, iOS, Android, HarmonyOS를 포함한 일반적인 모바일 플랫폼에 배포될 수 있습니다. -
MiniCPM-o 4.5: ⭐️⭐️⭐️ MiniCPM-o 시리즈 중 가장 최신의 가장 유능한 모델입니다. 총 9B 파라미터를 보유한 이 엔드-투-엔드 (end-to-end) 모델은 시각, 음성 및 전이중 (full-duplex) 멀티모달 라이브 스트리밍 분야에서 Gemini 2.5 Flash에 근접하며, 오픈 소스 커뮤니티에서 가장 다재다능하고 성능이 뛰어난 모델 중 하나로 자리 잡았습니다. 새로운 전이중 (full-duplex) 멀티모달 라이브 스트리밍 기능은 출력 스트림(음성 및 텍스트)과 실시간 입력 스트림(비디오 및 오디오)이 서로를 차단하지 않음을 의미합니다.

이를 통해 MiniCPM-o 4.5는 실시간 옴니모달 (omnimodal) 대화에서 동시에 보고, 듣고, 말할 수 있으며, 선제적 알림과 같은 **능동적 상호작용 (proactive interactions)**을 수행할 수 있습니다.

  • [2026.05.11] 🔥🔥🔥 4x/16x 혼합 시각 토큰 압축 (visual token compression) 기술이 적용된 MiniCPM-V 4.6을 오픈 소스로 공개합니다. 강력한 인코딩 효율성과 1.3B 규모의 경량성을 바탕으로, Qwen3.5 0.8B 대비 약 1.5배의 토큰 처리량 (token throughput)을 달성하여 현재까지 당사의 모델 중 엣지 배포 (edge-deployment)에 가장 친화적입니다. 지금 바로 사용해 보세요!
  • [2026.02.06] 🥳 🥳 🥳 Mac이나 GPU와 같은 개인 기기에 배포 가능한 실시간 웹 데모를 오픈 소스로 공개했습니다. 지금 바로 사용해 보세요!
  • [2026.02.03] 🔥🔥🔥 시각 및 음성 측면에서 Gemini 2.5 Flash와 대등하며, 전이중 (full-duplex) 멀티모달 라이브 스트리밍을 지원하는 MiniCPM-o 4.5를 오픈 소스로 공개합니다. 지금 바로 사용해 보세요!
  • [2025.08.26] 🔥🔥🔥 GPT-4o-latest, Gemini-2.0 Pro, 그리고 Qwen2.5-VL 72B를 능가하는 MiniCPM-V 4.5를 오픈 소스로 공개합니다. MiniCPM-V의 대중적인 기능들을 발전시켰으며, 유용한 새로운 기능들을 제공합니다. 지금 바로 사용해 보세요!
  • [2025.08.01] ⭐️⭐️⭐️ MiniCPM-V & o Cookbook을 오픈 소스로 공개했습니다! 다양한 사용자 시나리오를 위한 포괄적인 가이드를 제공하며, 원활한 온보딩 (onboarding)을 위해 새로운 Docs 사이트와 함께 제공됩니다.
  • [2025.03.01] 🚀🚀🚀 MiniCPM-o의 정렬 (alignment) 기술인 RLAIF-V가 CVPR 2025 Highlights에 채택되었습니다! 코드, 데이터셋, 논문이 오픈 소스로 공개되었습니다!
  • [2025.01.19] ⭐️⭐️⭐️ MiniCPM-o가 GitHub Trending 1위를 차지하고 Hugging Face Trending 2위에 올랐습니다!
  • [2024.05.23] 🔥🔥🔥 MiniCPM-V가 GitHub Trending과 Hugging Face Trending 1위를 차지했습니다! Hugging Face Gradio 공식 계정에서 추천한 당사의 데모를 여기서 확인하실 수 있습니다. 와서 직접 체험해 보세요!

더 많은 뉴스를 보려면 클릭하세요.

[2026.05.07] 📢📢📢 실시간 전이중 (full-duplex) 옴니모달 상호작용 뒤에 숨겨진 핵심 기술을 소개하는 MiniCPM-o 4.5 기술 보고서를 발표합니다. 여기에서 읽어보세요.

[2026.02.05] 📢📢📢 네트워크 환경으로 인해 웹 데모 (web demo)에서 지연 시간 (latency) 문제가 발생할 수 있음을 알려드립니다. 실시간 상호작용 데모 (real-time interactive Demo)를 로컬에 배포할 수 있도록 Docker 이미지를 최대한 빨리 제공하기 위해 적극적으로 작업 중입니다. 계속 지켜봐 주세요!

[2025.09.18] 📢📢📢 MiniCPM-V 4.5 기술 보고서 (technical report)가 출시되었습니다! 여기에서 확인하세요.

[2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5가 llama.cpp, vLLM, 그리고 LLaMA-Factory에서 공식적으로 지원됩니다. 이러한 공식 채널들을 통해 직접 사용해 보시기 바랍니다! Ollama 및 SGLang과 같은 추가 프레임워크에 대한 지원도 활발히 진행 중입니다.

[2025.08.02] 🚀🚀🚀 이미지 이해 (image understanding) 측면에서 GPT-4.1-mini-20250414를 능가하는 MiniCPM-V 4.0을 오픈 소스로 공개합니다. 이는 MiniCPM-V 2.6의 인기 있는 기능들을 발전시켰으며, 효율성을 크게 개선했습니다. 또한 iPhone 및 iPad용 iOS 앱도 오픈 소스로 공개합니다. 지금 바로 사용해 보세요!

[2025.06.20] ⭐️⭐️⭐️ 공식 Ollama 저장소 (repository)가 출시되었습니다. 클릭 한 번으로 우리의 최신 모델들을 사용해 보세요!

[2025.01.24] 📢📢📢 MiniCPM-o 2.6 기술 보고서 (technical report)가 출시되었습니다! 여기에서 확인하세요.

[2025.01.23] 💡💡💡 MiniCPM-o 2.6이 이제 Align-Anything에서 지원됩니다. Align-Anything은 PKU-Alignment 팀이 개발한 프레임워크로, 모든 형태의 모달리티 (any-to-any modality) 대형 모델을 인간의 의도에 맞게 정렬 (aligning)합니다. 시각 (vision) 및 오디오 (audio) 모두에서 DPO 및 SFT 미세 조정 (fine-tuning)을 지원합니다. 지금 바로 사용해 보세요!

[2025.01.19] 📢

주의! (ATTENTION!) 현재 MiniCPM-o 2.6을 llama.cpp, Ollama, vLLM의 공식 저장소 (repositories)에 병합 (merging)하는 작업을 진행 중입니다. 병합이 완료될 때까지 llama.cpp, Ollama, vLLM의 저희 로컬 포크 (LOCAL FORKS) 버전을 사용해 주세요. 병합 전에 공식 저장소를 사용하면 예상치 못한 문제가 발생할 수 있습니다. -
[2025.01.17] MiniCPM-o 2.6 int4 양자화 (quantization) 버전의 사용법을 업데이트하였으며, 모델 초기화 오류를 해결했습니다. 여기를 클릭하여 지금 바로 사용해 보세요!

[2025.01.13] 🔥🔥🔥 시각 (vision), 음성 (speech), 그리고 멀티모달 라이브 스트리밍 (multimodal live streaming)에서 GPT-4o-202405와 대등한 성능을 보이는 MiniCPM-o 2.6을 오픈 소스로 공개합니다. 이는 MiniCPM-V 2.6의 인기 있는 기능들을 발전시켰으며, 다양한 새로운 재미있는 기능들을 지원합니다. 지금 바로 사용해 보세요!

[2024.08.15] 이제 멀티 이미지 SFT (Supervised Fine-Tuning)를 지원합니다. 자세한 내용은 문서를 참조하십시오.

[2024.08.14] MiniCPM-V 2.6은 이제 SWIFT 프레임워크를 통한 미세 조정 (Fine-tuning)을 지원합니다!

[2024.08.17] 🚀🚀🚀 MiniCPM-V 2.6이 이제 공식 llama.cpp에서 완전히 지원됩니다! 다양한 크기의 GGUF 모델을 여기서 이용할 수 있습니다.

[2024.08.10] 🚀🚀🚀 MiniCPM-Llama3-V 2.5가 이제 공식 llama.cpp에서 완전히 지원됩니다! 다양한 크기의 GGUF 모델을 여기서 이용할 수 있습니다.

[2024.08.06] 🔥🔥🔥 단일 이미지, 멀티 이미지 및 비디오 이해 (Video understanding)에서 GPT-4V를 능가하는 MiniCPM-V 2.6을 오픈 소스로 공개합니다. 이는 MiniCPM-Llama3-V 2.5의 인기 있는 기능들을 발전시켰으며, iPad에서 실시간 비디오 이해를 지원할 수 있습니다. 지금 바로 사용해 보세요!

[2024.08.03] MiniCPM-Llama3-V 2.5 기술 보고서 (Technical report)가 공개되었습니다! 여기를 확인하세요.

[2024.07.19] MiniCPM-Llama3-V 2.5가 이제 vLLM을 지원합니다! 여기를 확인하세요.

[2024.06.03] 이제 모델의 레이어 (Layers)를 여러 GPU에 분산함으로써, 여러 개의 저용량 VRAM GPU (12 GB 또는 16 GB)에서 MiniCPM-Llama3-V 2.5를 실행할 수 있습니다. 자세한 내용은 이 링크를 확인하십시오.

[2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5는 이제 llama.cpp 및 Ollama에서 그 기능을 완전히 지원합니다! 저희가 제공하는 포크 (Forks) (llama.cpp, Ollama)의 최신 코드를 풀(pull)해 주세요. 다양한 크기의 GGUF 모델을 여기서 이용할 수 있습니다. MiniCPM-Llama3-V 2.5 시리즈는 아직 공식 저장소 (Official repositories)에서 지원되지 않으며, 저희는 PR (Pull Request) 병합을 위해 열심히 노력하고 있습니다. 계속 지켜봐 주세요!

[2024.05.28] 💫 이제 단 2개의 V100 GPU만을 사용하여 MiniCPM-Llama3-V 2.5에 대한 LoRA 미세 조정 (Fine-tuning)을 지원합니다! 더 많은 통계 수치는 여기에서 확인하십시오.

[2024.05.25] MiniCPM-Llama3-V 2.5는 이제 스트리밍 출력 (Streaming outputs)과 사용자 정의 시스템 프롬프트 (Customized system prompts)를 지원합니다. 여기에서 시도해 보세요!

[2024.05.24] llama.cpp 추론 (Inference)을 지원하고 모바일 기기에서 초당 6~8 토큰의 부드러운 디코딩 (Decoding)을 제공하는 MiniCPM-Llama3-V 2.5 gguf를 출시합니다. 지금 바로 사용해 보세요!

[2024.05.23] 🔍 Phi-3-vision-128k-instruct와 MiniCPM-Llama3-V 2.5 간의 벤치마크 평가 (Benchmark evaluation), 다국어 능력 (Multilingual capabilities), 그리고 추론 효율성 (Inference efficiency)을 포함한 종합적인 비교 분석을 출시했습니다 🌟📊🌍🚀. 자세한 내용을 보려면 여기를 클릭하세요.

[2024.05.20] MiniCPM-Llama3-V 2.5를 오픈 소스 (Open-source)로 공개합니다. 이 모델은 향상된 OCR 능력을 갖추고 30개 이상의 언어를 지원하며, GPT-4V 수준의 성능을 달성한 최초의 온디바이스 (End-side) MLLM입니다! 효율적인 추론 (Inference)과 간단한 미세 조정 (Fine-tuning)을 제공합니다. 지금 바로 사용해 보세요!

-[2024.04.23] MiniCPM-V-2.0이 이제 vLLM을 지원합니다! 자세한 내용을 보려면 여기를 클릭하세요.

-[2024.04.18] MiniCPM-V 2.0의 데모 (Demo)를 호스팅하기 위해 이곳에 HuggingFace Space를 생성했습니다!

-[2024.04.17] MiniCPM-V-2.0이 이제 WebUI 데모 (Demo) 배포를 지원합니다!

-[2024.04.15] MiniCPM-V-2.0은 이제 SWIFT 프레임워크를 통한 미세 조정 (Fine-tuning)도 지원하며, 스트리밍 추론 (Streaming inference) 기능이 활성화되었습니다!

-[2024.04.12] MiniCPM-V 2.0을 오픈 소스 (Open-source)로 공개합니다. 이 모델은 장면 텍스트 (Scene text) 이해 측면에서 Gemini Pro와 대등한 성능을 달성하였으며, 11개의 대중적인 벤치마크에 대한 종합 평가인 OpenCompass에서 강력한 Qwen-VL-Chat 9.6B 및 Yi-VL 34B를 능가합니다. MiniCPM-V 2.0 기술 블로그를 보려면 여기를 클릭하세요.

-[2024.03.14] MiniCPM-V가 이제 SWIFT 프레임워크를 통한 미세 조정 (Fine-tuning)을 지원합니다. 기여해 준 Jintao에게 감사드립니다!

-[2024.03.01] MiniCPM-V를 이제 Mac에 배포할 수 있습니다!

-[2024.02.01] 효율적인 온디바이스 (End-side) 배포와 강력한 멀티모달 (Multimodal) 능력을 각각 지원하는 MiniCPM-V와 OmniLMM-12B를 오픈 소스 (Open-source)로 공개합니다.

  • MiniCPM-V 4.6
  • MiniCPM-o 4.5
  • MiniCPM-V & o Cookbook
  • 지원되는 추론 (Inference) 및 학습 (Training) 프레임워크
  • 모델 주 (Model Zoo)
  • MiniCPM-V & o를 사용한 멋진 작업들
  • 기술 보고서 (Technical Reports) 및 핵심 기술 논문 (Key Techniques Papers)

MiniCPM-V 4.6은 현재까지 당사의 모델 중 에지 배포 (edge-deployment)에 가장 친화적인 모델입니다. 이 모델은 SigLIP2-400M과 Qwen3.5-0.8B LLM (대규모 언어 모델)을 기반으로 구축되었습니다. MiniCPM-V 제품군의 강력한 단일 이미지, 다중 이미지 및 비디오 이해 능력을 계승하는 동시에, 연산 효율성을 크게 향상시켰습니다. 또한 4x/16x 혼합 시각 토큰 압축 (mixed 4x/16x visual token compression) 기술을 도입했습니다. MiniCPM-V 4.6의 주요 특징은 다음과 같습니다:

🔥

선도적인 기초 능력 (Leading Foundation Capability). MiniCPM-V 4.6은 Artificial Analysis Intelligence Index 벤치마크에서 13점을 기록하여, 19배 적은 토큰 비용으로 10점을 기록한 Qwen3.5-0.8B와 43배 적은 토큰 비용으로 11점을 기록한 Qwen3.5-0.8B-Thinking을 능가합니다. 또한 더 큰 모델인 Ministral 3 3B (11점)를 넘어섭니다. -
💪

강력한 멀티모달 능력 (Strong Multimodal Capability). MiniCPM-V 4.6은 대부분의 시각-언어 이해 (vision-language understanding) 작업에서 Qwen3.5-0.8B보다 뛰어난 성능을 보이며, OpenCompass, RefCOCO, HallusionBench, MUIRBench, OCRBench를 포함한 많은 벤치마크에서 Qwen3.5 2B 수준의 성능에 도달합니다. -
🚀

초효율적 아키텍처 (Ultra-Efficient Architecture). LLaVA-UHD v4의 최신 기술을 기반으로 하는 MiniCPM-V 4.6은 시각 인코딩 연산 FLOPs (부동 소수점 연산량)를 50% 이상 줄였습니다. 이를 통해 MiniCPM-V 4.6은 더 작은 모델들보다 더 나은 효율성을 달성할 수 있으며, Qwen3.5-0.8B 대비 약 1.5배의 토큰 처리량 (token throughput)을 구현합니다. 또한 4x/16x 혼합 시각 토큰 압축률을 지원하여 정확도와 속도 사이의 유연한 전환을 가능하게 합니다. -
📱

광범위한 모바일 플랫폼 커버리지 (Broad Mobile Platform Coverage). MiniCPM-V 4.6은 iOS, Android, HarmonyOS의 세 가지 주요 모바일 플랫폼 모두에 배포될 수 있습니다. 모든 에지 적응 (edge adaptation) 코드가 오픈 소스로 공개되어 있어, 개발자들은 단 몇 단계만으로 온디바이스 (on-device) 경험을 재현할 수 있습니다. -
🛠️

개발자 친화적 (Developer Friendly). MiniCPM-V 4.6은 SGLang, vLLM, llama.cpp, Ollama와 같은 추론 프레임워크 (inference frameworks)에 최적화되어 있으며, SWIFT 및 LLaMA-Factory와 같은 미세 조정 (fine-tuning) 생태계를 지원합니다. 개발자들은 소비자용 GPU에서 새로운 도메인과 태스크를 위해 모델을 빠르게 커스텀할 수 있습니다. 저희는 GGUF, BNB, AWQ, GPTQ 형식의 다양한 양자화 (quantized) 변체들을 제공합니다.

전반적인 성능 (Instruct)

MiniCPM-V 4.6 추론 효율성

고동시성 처리량 (High-Concurrency Throughput) |
단일 요청 TTFT (ms) |

MiniCPM-V 4.6은 세 가지 주요 엔드 사이드 (end-side) 플랫폼인 iOS, Android, HarmonyOS에 배포될 수 있습니다. 아래 클립들은 편집되지 않은 모바일 기기의 원본 화면 녹화 영상입니다.

iPhone iPhone 17 Pro Max |
Android Redmi K70 |
HarmonyOS HUAWEI nova 14 |

Transformers를 사용한 추론 예시를 보려면 클릭하세요.

pip install "transformers[torch]>=5.7.0" torchvision torchcodec

CUDA 호환성 관련 참고 사항: (비디오 디코딩에 사용되는) torchcodec은 특정 CUDA 버전과 호환성 문제가 발생할 수 있습니다. 예를 들어, torch>=2.11은 기본적으로 CUDA 13.1을 포함하지만, CUDA 12.x 환경에서는 RuntimeError: Could not load libtorchcodec과 같은 오류가 발생할 수 있습니다. 두 가지 해결 방법이 있습니다:

  1. torchcodecPyAV로 교체 — CUDA 버전 제약 없이 이미지와 비디오 추론을 모두 지원합니다:
    pip install "transformers[torch]>=5.7.0" torchvision av

  2. 환경에 맞춰 torch 설치 시 CUDA 버전을 고정합니다 (예: CUDA 12.8):
    pip install "transformers>=5.7.0" torchvision torchcodec --index-url https://download.pytorch.org/whl/cu128

from transformers import AutoModelForImageTextToText, AutoProcessor
model_id = "openbmb/MiniCPM-V-4.6"
processor = AutoProcessor.from_pretrained(model_id)
...
messages = [
{
"role": "user",
...
messages = [
{
"role": "user",
...

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0