본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 26. 19:47

modelscope/FunASR

요약

FunASR은 Whisper보다 최대 170배 빠른 속도를 자랑하는 산업용 음성 인식 프레임워크입니다. 단 한 번의 API 호출로 화자 분리, 감정 감지, 구두점 삽입 등을 통합적으로 수행하며 OpenAI 호환 엔드포인트를 제공합니다.

핵심 포인트

  • Whisper 대비 압도적인 처리 속도 제공
  • 화자 분리 및 감정 감지 기능 내장
  • OpenAI 호환 API 및 MCP 서버 지원
  • VAD, ASR, 구두점 처리를 하나의 모델로 통합

산업용 음성 인식. Whisper보다 170배 빠름. 50개 이상의 언어 지원.

화자 분리 (Speaker diarization) · 감정 감지 (Emotion detection) · 스트리밍 (Streaming) · 단 한 번의 API 호출

빠른 시작 (Quick Start) · Colab · 벤치마크 (Benchmark) · 모델 선택 (Model selection) · 마이그레이션 가이드 (Migration guide) · 사용 사례 (Use cases) · 배포 매트릭스 (Deployment matrix) · 모델 (Models) · 에이전트 통합 (Agent Integration) · 문서 (Docs) · 기여하기 (Contribute)

로컬 설정이 필요 없나요? Colab 빠른 시작을 열어 공개 샘플을 전사하거나 브라우저에서 직접 오디오를 업로드하세요.

pip install funasr

from funasr import AutoModel
model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

출력 (Output) — 화자 라벨, 타임스탬프(timestamps), 구두점(punctuation)이 포함된 구조화된 텍스트:

[00:00.4 → 00:03.8] Speaker 0: Let's discuss the Q3 plan.
[00:04.2 → 00:07.1] Speaker 1: Sounds good. I have three points.
[00:07.5 → 00:12.3] Speaker 0: Go ahead. We have 30 minutes.

이것이 전부입니다. 하나의 모델, 하나의 호출 — VAD 세그멘테이션 (VAD segmentation), 음성 인식 (speech recognition), 구두점 (punctuation), 화자 분리 (speaker diarization)가 모두 자동으로 수행됩니다.

API 서버로 배포: funasr-server --device cuda

→ localhost:8000에서 OpenAI 호환 엔드포인트 제공

AI 에이전트와 함께 사용: Claude/Cursor를 위한 MCP 서버 · LangChain/Dify/AutoGen을 위한 OpenAI API

FunASRWhisperCloud APIs
속도 (Speed)170배 실시간 (170x realtime)13배 실시간 (13x realtime)
화자 ID (Speaker ID)✅ 내장됨 (Built-in)❌ pyannote 필요
감정 (Emotion)✅ 기쁨/슬픔/분노 (Happy/Sad/Angry)
...

FunASR를 처음 사용하시나요? 로컬 환경을 설정하기 전에 Colab 빠른 시작을 사용해 보세요. 첫 모델을 선택 중인가요? 모델 선택 가이드부터 시작하세요. Whisper 또는 클라우드 ASR 제공업체에서 전환을 계획 중인가요? 마이그레이션 가이드와 벤치마크 예시를 사용하여 대표적인 오디오를 테스트하고, 기능을 매핑하며, 안전하게 도입하세요.

184개의 롱폼(long-form) 오디오 파일 (192분). 전체 보고서 →

모델별 성능 비교:

모델명GPU 속도CPU 속도vs Whisper-large-v3
SenseVoice-Small170배 실시간17배 실시간🚀 13배 빠름
Paraformer-Large120배 실시간15배 실시간🚀 9배 빠름
Whisper-large-v3-turbo46배 실시간3.4배 빠름
Fun-ASR-Nano17배 실시간3.6배 실시간1.3배 빠름
Whisper-large-v313배 실시간기준 (baseline)

핵심 시사점: FunASR 모델은 Whisper가 GPU에서 실행되는 것보다 CPU에서 더 빠르게 작동합니다.

  • 2026/05/24:
    vLLM 추론 엔진(Inference Engine) — Fun-ASR-Nano의 LLM 디코딩 속도를 2~3배 향상. VAD + 화자 분리(Speaker Diarization) 기능을 갖춘 스트리밍 WebSocket 서비스 제공. 가이드 →

  • 2026/05/24:
    동적 VAD(Dynamic VAD) — 적응형 무음 임계값(기본 설정). 짧은 문장은 유지하고, 긴 구간은 자동 분할 처리. 상세 정보 →

  • 2026/05/24:v1.3.3funasr-server
    CLI, OpenAI 호환 API, AI 에이전트를 위한 MCP 서버 지원. pip install --upgrade funasr

  • 2026/05/20: Qwen3-ASR (0.6B/1.7B) 추가 — 52개 언어, 자동 감지 기능. 사용법

  • 2026/05/20: GLM-ASR-Nano (1.5B) 추가 — 17개 언어, 방언 지원. 사용법

  • 2026/05/19: Fun-ASR-Nano와 SenseVoice가 화자 분리 기능을 지원하게 되었습니다.

  • 2025/12/15: Fun-ASR-Nano-2512 — 31개 언어, 수천만 시간 학습 데이터 기반.

이전 버전 (Older)

  • 2024/10/10: Whisper-large-v3-turbo 지원 추가.
  • 2024/07/04: SenseVoice — ASR + 감정(emotion) + 오디오 이벤트.
  • 2024/01/30: FunASR 1.0 출시.

pip install funasr

소스 코드에서 / 요구 사항 (From source / Requirements)

git clone https://github.com/modelscope/FunASR.git && cd FunASR
pip install -e ./ 

요구 사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio

모델명작업 (Task)언어파라미터 수 (Params)링크
Fun-ASR-NanoASR + 타임스탬프31개 언어800M⭐ 🤗
SenseVoiceSmallASR + 감정 + 이벤트zh/en/ja/ko/yue234M⭐ 🤗
Paraformer-zhASR + 타임스탬프zh/en220M⭐ 🤗
Paraformer-zh-streaming스트리밍 ASRzh/en220M⭐ 🤗
Qwen3-ASRASR, 52개 언어다국어 (multilingual)1.7B사용법
...
전체 예제 및 파라미터 문서는 참고 →
from funasr import AutoModel
# 중국어 제작 (VAD + ASR + 구두점(punctuation) + 화자 분리(speaker))
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc", spk_model="cam++", device="cuda")
...
# OpenAI와 호환되는 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --model sensevoice --device cuda
...

공개 샘플로 검증해 보세요:

curl -L https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav -o sample.wav
curl http://localhost:8000/v1/audio/transcriptions \
-F file=@sample.wav \
...
# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

OpenAI API 예제 → · Gradio 데모 → · 클라이언트 레시피 → · JavaScript/TypeScript 레시피 → · Kubernetes 템플릿 → · 워크플로우 레시피 → · Postman 컬렉션 → · OpenAPI 사양(spec) → · 보안 가이드 → · 배포 매트릭스 → · 배포 문서 → · 에이전트 통합 →

| 📖 문서화 (Documentation) | 🐛 이슈 (Issues) |
| 💬 토론 (Discussions) | 🤗 HuggingFace |
| 🤝 기여 (Contributing) | 📈 20k 성장 계획 |

@inproceedings{gao2023funasr,
author={Zhifu Gao and others},
title={FunASR: A Fundamental End-to-End Speech Recognition Toolkit},
...}

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0