modelscope/FunASR

산업용 음성 인식. Whisper보다 170배 빠름. 50개 이상의 언어 지원.

화자 분리 (Speaker diarization) · 감정 감지 (Emotion detection) · 스트리밍 (Streaming) · 단 한 번의 API 호출

빠른 시작 (Quick Start) · Colab · 벤치마크 (Benchmark) · 모델 선택 (Model selection) · 마이그레이션 가이드 (Migration guide) · 사용 사례 (Use cases) · 배포 매트릭스 (Deployment matrix) · 모델 (Models) · 에이전트 통합 (Agent Integration) · 문서 (Docs) · 기여하기 (Contribute)

로컬 설정이 필요 없나요? Colab 빠른 시작을 열어 공개 샘플을 전사하거나 브라우저에서 직접 오디오를 업로드하세요.

pip install funasr

from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

출력 (Output) — 화자 라벨, 타임스탬프(timestamps), 구두점(punctuation)이 포함된 구조화된 텍스트:

[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.

이것이 전부입니다. 하나의 모델, 하나의 호출 — VAD 세그멘테이션 (VAD segmentation), 음성 인식 (speech recognition), 구두점 (punctuation), 화자 분리 (speaker diarization)가 모두 자동으로 수행됩니다.

API 서버로 배포: funasr-server --device cuda

→ localhost:8000에서 OpenAI 호환 엔드포인트 제공

AI 에이전트와 함께 사용: Claude/Cursor를 위한 MCP 서버 · LangChain/Dify/AutoGen을 위한 OpenAI API

FunASR	Whisper	Cloud APIs
속도 (Speed)	170배 실시간 (170x realtime)	13배 실시간 (13x realtime)
화자 ID (Speaker ID)	✅ 내장됨 (Built-in)	❌ pyannote 필요
감정 (Emotion)	✅ 기쁨/슬픔/분노 (Happy/Sad/Angry)	❌
...

FunASR를 처음 사용하시나요? 로컬 환경을 설정하기 전에 Colab 빠른 시작을 사용해 보세요. 첫 모델을 선택 중인가요? 모델 선택 가이드부터 시작하세요. Whisper 또는 클라우드 ASR 제공업체에서 전환을 계획 중인가요? 마이그레이션 가이드와 벤치마크 예시를 사용하여 대표적인 오디오를 테스트하고, 기능을 매핑하며, 안전하게 도입하세요.

184개의 롱폼(long-form) 오디오 파일 (192분). 전체 보고서 →

모델별 성능 비교:

모델명	GPU 속도	CPU 속도	vs Whisper-large-v3
SenseVoice-Small	170배 실시간	17배 실시간	🚀 13배 빠름
Paraformer-Large	120배 실시간	15배 실시간	🚀 9배 빠름
Whisper-large-v3-turbo	46배 실시간	❌	3.4배 빠름
Fun-ASR-Nano	17배 실시간	3.6배 실시간	1.3배 빠름
Whisper-large-v3	13배 실시간	❌	기준 (baseline)

핵심 시사점: FunASR 모델은 Whisper가 GPU에서 실행되는 것보다 CPU에서 더 빠르게 작동합니다.

2026/05/24:
vLLM 추론 엔진(Inference Engine) — Fun-ASR-Nano의 LLM 디코딩 속도를 2~3배 향상. VAD + 화자 분리(Speaker Diarization) 기능을 갖춘 스트리밍 WebSocket 서비스 제공. 가이드 →
2026/05/24:
동적 VAD(Dynamic VAD) — 적응형 무음 임계값(기본 설정). 짧은 문장은 유지하고, 긴 구간은 자동 분할 처리. 상세 정보 →
2026/05/24:v1.3.3—funasr-server
CLI, OpenAI 호환 API, AI 에이전트를 위한 MCP 서버 지원. pip install --upgrade funasr
2026/05/20: Qwen3-ASR (0.6B/1.7B) 추가 — 52개 언어, 자동 감지 기능. 사용법
2026/05/20: GLM-ASR-Nano (1.5B) 추가 — 17개 언어, 방언 지원. 사용법
2026/05/19: Fun-ASR-Nano와 SenseVoice가 화자 분리 기능을 지원하게 되었습니다.
2025/12/15: Fun-ASR-Nano-2512 — 31개 언어, 수천만 시간 학습 데이터 기반.

이전 버전 (Older)

2024/10/10: Whisper-large-v3-turbo 지원 추가.
2024/07/04: SenseVoice — ASR + 감정(emotion) + 오디오 이벤트.
2024/01/30: FunASR 1.0 출시.

pip install funasr

소스 코드에서 / 요구 사항 (From source / Requirements)

git clone https://github.com/modelscope/FunASR.git && cd FunASR
pip install -e ./

요구 사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio

모델명	작업 (Task)	언어	파라미터 수 (Params)	링크
Fun-ASR-Nano	ASR + 타임스탬프	31개 언어	800M	⭐ 🤗
SenseVoiceSmall	ASR + 감정 + 이벤트	zh/en/ja/ko/yue	234M	⭐ 🤗
Paraformer-zh	ASR + 타임스탬프	zh/en	220M	⭐ 🤗
Paraformer-zh-streaming	스트리밍 ASR	zh/en	220M	⭐ 🤗
Qwen3-ASR	ASR, 52개 언어	다국어 (multilingual)	1.7B	사용법
...
전체 예제 및 파라미터 문서는 참고 →

from funasr import AutoModel
# 중국어 제작 (VAD + ASR + 구두점(punctuation) + 화자 분리(speaker))
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", device="cuda")
...

# OpenAI와 호환되는 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda
...

공개 샘플로 검증해 보세요:

curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav
curl http://localhost:8000/v1/audio/transcriptions \
-F file=@sample.wav \
...

# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

OpenAI API 예제 → · Gradio 데모 → · 클라이언트 레시피 → · JavaScript/TypeScript 레시피 → · Kubernetes 템플릿 → · 워크플로우 레시피 → · Postman 컬렉션 → · OpenAPI 사양(spec) → · 보안 가이드 → · 배포 매트릭스 → · 배포 문서 → · 에이전트 통합 →

@inproceedings{gao2023funasr,
author={Zhifu Gao and others},
title={FunASR: A Fundamental End-to-End Speech Recognition Toolkit},
...}

Insights

modelscope/FunASR

요약

핵심 포인트

이전 버전 (Older)

소스 코드에서 / 요구 사항 (From source / Requirements)

댓글

증거 유형 경쟁: 개입 데이터(Interventional Data)는 언제 언어 모델에게 인과 방향을 가르칠 수 있는가?

검색 증강 생성(RAG)에서의 질문-답변 간극 해소: 가설 프롬프트 임베딩 (Hypothetical Prompt Embeddings)

아첨(Sycophancy)이 협력적 시각-언어 작업에서의 인식적 경계(Epistemic Vigilance)를 저해하는 현상

ARB: AI 텍스트 탐지기 평가를 위한 매칭된 저자 재작성 벤치마크 데이터셋

검색 증강 생성(RAG)에서의 질문-답변 간극 해소: 가설 프롬프트 임베딩 (Hypothetical Prompt Embeddings)

아첨(Sycophancy)이 협력적 시각-언어 작업에서의 인식적 경계(Epistemic Vigilance)를 저해하는 현상

ARB: AI 텍스트 탐지기 평가를 위한 매칭된 저자 재작성 벤치마크 데이터셋