X요약2026. 05. 29. 22:35

대부분의 AI 개발자가 아직 보지 못한 24,600 스타의 GitHub 저장소를 발견했습니다

요약

OpenBMB와 Tsinghua University가 개발한 1.3B 파라미터 규모의 멀티모달 모델 MiniCPM-V 4.6을 소개합니다. 이 모델은 클라우드 API 없이 스마트폰 등 온디바이스 환경에서 이미지, 비디오, OCR 작업을 수행할 수 있는 오픈 소스 모델입니다.

핵심 포인트

1.3B 규모의 경량 멀티모달 모델
온디바이스 이미지, 비디오 및 OCR 지원
262k 토큰의 넓은 컨텍스트 윈도우 제공
Ollama, llama.cpp, vLLM 완벽 지원
Apache 2.0 라이선스의 100% 오픈 소스

대부분의 AI 개발자가 아직 보지 못한 24,600 스타(stars)를 보유한 GitHub 저장소를 발견했습니다.

이것은 여러분의 스마트폰에서 완전히 실행되는 1.3B 멀티모달 모델 (multimodal model)입니다.

API 없음. 클라우드 (cloud) 없음. 구독 없음.

이 모델의 이름은 MiniCPM-V 4.6입니다. OpenBMB와 Tsinghua University에서 구축했습니다.

포함된 기능은 다음과 같습니다:

→ 온디바이스 (On-device) 이미지, 비디오 및 OCR
→ 엣지 하드웨어 (edge hardware)에서 262k 토큰 컨텍스트 윈도우 (context window)
→ 19배 적은 토큰으로 Qwen3.5-0.8B를 능가
→ 6GB VRAM에서 실행
→ Ollama, llama.cpp, 그리고 vLLM 완벽 지원

대부분의 팀은 여전히 기본적인 비전 (vision) 작업을 유료 API를 통해 라우팅하고 있습니다.

이 모델은 동일한 작업을 로컬 (locally)에서 수행합니다. 영원히. 무료로.

Apache 2.0. 100% 오픈 소스 (Open Source).

이 모델이 있다면 어떤 클라우드 비전 (cloud vision) API를 가장 먼저 없애고 싶으신가요?
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

대부분의 AI 개발자가 아직 보지 못한 24,600 스타의 GitHub 저장소를 발견했습니다

요약

핵심 포인트

댓글