modelscope/FunASR
요약
FunASR은 Whisper보다 최대 170배 빠른 속도를 자랑하는 산업용 음성 인식 프레임워크입니다. 단 한 번의 API 호출로 화자 분리, 감정 감지, 구두점 삽입 등을 통합적으로 수행하며 OpenAI 호환 엔드포인트를 제공합니다.
핵심 포인트
- Whisper 대비 압도적인 처리 속도 제공
- 화자 분리 및 감정 감지 기능 내장
- OpenAI 호환 API 및 MCP 서버 지원
- VAD, ASR, 구두점 처리를 하나의 모델로 통합
산업용 음성 인식. Whisper보다 170배 빠름. 50개 이상의 언어 지원.
화자 분리 (Speaker diarization) · 감정 감지 (Emotion detection) · 스트리밍 (Streaming) · 단 한 번의 API 호출
빠른 시작 (Quick Start) · Colab · 벤치마크 (Benchmark) · 모델 선택 (Model selection) · 마이그레이션 가이드 (Migration guide) · 사용 사례 (Use cases) · 배포 매트릭스 (Deployment matrix) · 모델 (Models) · 에이전트 통합 (Agent Integration) · 문서 (Docs) · 기여하기 (Contribute)
로컬 설정이 필요 없나요? Colab 빠른 시작을 열어 공개 샘플을 전사하거나 브라우저에서 직접 오디오를 업로드하세요.
pip install funasr
from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")
출력 (Output) — 화자 라벨, 타임스탬프(timestamps), 구두점(punctuation)이 포함된 구조화된 텍스트:
[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.
이것이 전부입니다. 하나의 모델, 하나의 호출 — VAD 세그멘테이션 (VAD segmentation), 음성 인식 (speech recognition), 구두점 (punctuation), 화자 분리 (speaker diarization)가 모두 자동으로 수행됩니다.
API 서버로 배포: funasr-server --device cuda
→ localhost:8000에서 OpenAI 호환 엔드포인트 제공
AI 에이전트와 함께 사용: Claude/Cursor를 위한 MCP 서버 · LangChain/Dify/AutoGen을 위한 OpenAI API
| FunASR | Whisper | Cloud APIs |
|---|---|---|
| 속도 (Speed) | 170배 실시간 (170x realtime) | 13배 실시간 (13x realtime) |
| 화자 ID (Speaker ID) | ✅ 내장됨 (Built-in) | ❌ pyannote 필요 |
| 감정 (Emotion) | ✅ 기쁨/슬픔/분노 (Happy/Sad/Angry) | ❌ |
| ... |
FunASR를 처음 사용하시나요? 로컬 환경을 설정하기 전에 Colab 빠른 시작을 사용해 보세요. 첫 모델을 선택 중인가요? 모델 선택 가이드부터 시작하세요. Whisper 또는 클라우드 ASR 제공업체에서 전환을 계획 중인가요? 마이그레이션 가이드와 벤치마크 예시를 사용하여 대표적인 오디오를 테스트하고, 기능을 매핑하며, 안전하게 도입하세요.
184개의 롱폼(long-form) 오디오 파일 (192분). 전체 보고서 →
모델별 성능 비교:
| 모델명 | GPU 속도 | CPU 속도 | vs Whisper-large-v3 |
|---|---|---|---|
| SenseVoice-Small | 170배 실시간 | 17배 실시간 | 🚀 13배 빠름 |
| Paraformer-Large | 120배 실시간 | 15배 실시간 | 🚀 9배 빠름 |
| Whisper-large-v3-turbo | 46배 실시간 | ❌ | 3.4배 빠름 |
| Fun-ASR-Nano | 17배 실시간 | 3.6배 실시간 | 1.3배 빠름 |
| Whisper-large-v3 | 13배 실시간 | ❌ | 기준 (baseline) |
핵심 시사점: FunASR 모델은 Whisper가 GPU에서 실행되는 것보다 CPU에서 더 빠르게 작동합니다.
-
2026/05/24:
vLLM 추론 엔진(Inference Engine) — Fun-ASR-Nano의 LLM 디코딩 속도를 2~3배 향상. VAD + 화자 분리(Speaker Diarization) 기능을 갖춘 스트리밍 WebSocket 서비스 제공. 가이드 → -
2026/05/24:
동적 VAD(Dynamic VAD) — 적응형 무음 임계값(기본 설정). 짧은 문장은 유지하고, 긴 구간은 자동 분할 처리. 상세 정보 → -
2026/05/24:v1.3.3—
funasr-server
CLI, OpenAI 호환 API, AI 에이전트를 위한 MCP 서버 지원.pip install --upgrade funasr -
2026/05/20: Qwen3-ASR (0.6B/1.7B) 추가 — 52개 언어, 자동 감지 기능. 사용법
-
2026/05/20: GLM-ASR-Nano (1.5B) 추가 — 17개 언어, 방언 지원. 사용법
-
2026/05/19: Fun-ASR-Nano와 SenseVoice가 화자 분리 기능을 지원하게 되었습니다.
-
2025/12/15: Fun-ASR-Nano-2512 — 31개 언어, 수천만 시간 학습 데이터 기반.
이전 버전 (Older)
- 2024/10/10: Whisper-large-v3-turbo 지원 추가.
- 2024/07/04: SenseVoice — ASR + 감정(emotion) + 오디오 이벤트.
- 2024/01/30: FunASR 1.0 출시.
pip install funasr
소스 코드에서 / 요구 사항 (From source / Requirements)
git clone https://github.com/modelscope/FunASR.git && cd FunASR
pip install -e ./
요구 사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio
| 모델명 | 작업 (Task) | 언어 | 파라미터 수 (Params) | 링크 |
|---|---|---|---|---|
| Fun-ASR-Nano | ASR + 타임스탬프 | 31개 언어 | 800M | ⭐ 🤗 |
| SenseVoiceSmall | ASR + 감정 + 이벤트 | zh/en/ja/ko/yue | 234M | ⭐ 🤗 |
| Paraformer-zh | ASR + 타임스탬프 | zh/en | 220M | ⭐ 🤗 |
| Paraformer-zh-streaming | 스트리밍 ASR | zh/en | 220M | ⭐ 🤗 |
| Qwen3-ASR | ASR, 52개 언어 | 다국어 (multilingual) | 1.7B | 사용법 |
| ... | ||||
| 전체 예제 및 파라미터 문서는 참고 → |
from funasr import AutoModel
# 중국어 제작 (VAD + ASR + 구두점(punctuation) + 화자 분리(speaker))
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", device="cuda")
...
# OpenAI와 호환되는 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda
...
공개 샘플로 검증해 보세요:
curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav
curl http://localhost:8000/v1/audio/transcriptions \
-F file=@sample.wav \
...
# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12
OpenAI API 예제 → · Gradio 데모 → · 클라이언트 레시피 → · JavaScript/TypeScript 레시피 → · Kubernetes 템플릿 → · 워크플로우 레시피 → · Postman 컬렉션 → · OpenAPI 사양(spec) → · 보안 가이드 → · 배포 매트릭스 → · 배포 문서 → · 에이전트 통합 →
| 📖 문서화 (Documentation) | 🐛 이슈 (Issues) |
| 💬 토론 (Discussions) | 🤗 HuggingFace |
| 🤝 기여 (Contributing) | 📈 20k 성장 계획 |
@inproceedings{gao2023funasr,
author={Zhifu Gao and others},
title={FunASR: A Fundamental End-to-End Speech Recognition Toolkit},
...}
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기