faster-whisper vs Whisper.cpp vs WhisperX: 2026 비교 분석

이 기사는 원래 aifoss.dev에 게시되었습니다.

title: 'faster-whisper vs Whisper.cpp vs WhisperX: 2026 Shootout'
description: '2026년에 Whisper를 로컬에서 실행하는 세 가지 방법: Python 파이프라인을 위한 faster-whisper, 의존성 없는 CPU/GPU 사용을 위한 Whisper.cpp, 단어 단위 타임스탬프를 위한 WhisperX.'
pubDate: '2026년 5월 20일'

tags: ["whisper", "ai", "speechtotext", "opensource", "python"]

OpenAI의 Whisper는 로컬 음성-텍스트 변환 (speech-to-text)의 가능성을 바꾸어 놓았습니다. 하지만 레퍼런스 구현체 (reference implementation)는 대부분의 프로덕션 사용에 부적합할 정도로 느립니다. 세 가지 오픈 소스 프로젝트가 완전히 다른 방식으로 이 문제를 해결했으며, 이들 사이에서 잘못된 선택을 하면 이식성 (portability), 속도, 또는 실제로 필요한 기능을 놓치게 됩니다.

다루는 버전: faster-whisper v1.2.1 (2025년 10월 31일), Whisper.cpp v1.8.4 (2025년 3월 19일), WhisperX v3.8.5 (2025년 4월 1일).

빠른 답변

상황	최선의 선택
NVIDIA GPU 기반 Python 전사 (transcription) 파이프라인	faster-whisper
...

WhisperX는 faster-whisper를 래핑 (wrap)하고 있으므로, 그 성능 특성의 대부분을 상속받습니다. 실제 결정 기준은 다음과 같습니다: (a) 순수 처리량 (throughput)을 위한 faster-whisper 단독 사용, (b) 타임스탬프 (timestamps)나 화자 라벨 (speaker labels)이 필요한 경우 WhisperX 사용, 또는 (c) Python을 사용할 수 없거나 다른 도구들이 지원하지 않는 플랫폼이 필요한 경우 Whisper.cpp 사용입니다.

각 도구의 실제 정체

faster-whisper (SYSTRAN/faster-whisper, MIT license)는 OpenAI의 Whisper를 CTranslate2를 사용하여 재구현(reimplement)했습니다. CTranslate2는 연산을 전체 FP32 대신 INT8 또는 FP16으로 수행하는 Transformer 모델용 C++ 추론 엔진(inference engine)입니다. 그 결과, 동일한 정확도를 유지하면서도 최대 4배 빠른 추론 속도와 현저히 낮은 VRAM 사용량을 보여줍니다. 이 도구는 Python 라이브러리이며 pip를 통해 설치할 수 있고, GPU 가속을 위해 NVIDIA CUDA 12가 필요합니다. v1.2.1에서는 음성 활동 감지(Voice Activity Detection, VAD) 성능을 개선하기 위해 Silero-VAD V6를 추가했으며, 경계선에 있는 오디오 세그먼트에서 <|nocaptions|> 토큰이 잘못 생성되어 환각(hallucination) 텍스트를 유발하던 배치 추론(batched-inference) 버그를 수정했습니다.

Whisper.cpp (ggml-org/whisper.cpp, MIT license)는 llama.cpp의 기반이 되는 런타임과 동일한 ggml 텐서(tensor) 라이브러리를 기반으로 구축된 C/C++ 포트(port)입니다. Python 런타임이 필요 없는 독립형 바이너리(standalone binary)로 컴파일됩니다. 지원되는 하드웨어 목록은 모든 Whisper 구현체 중 가장 광범위합니다: NVIDIA CUDA, Apple Metal 및 Core ML (Neural Engine 포함), AMD Vulkan, Intel OpenVINO, WebAssembly, Raspberry Pi, iOS 및 Android가 포함됩니다. 모델 로드 후에는 런타임 시 메모리를 할당하지 않습니다. v1.8.4는 지원되는 모든 백엔드(backend)에 걸쳐 ggml 성능 개선 사항을 통합한 유지보수 릴리스입니다.

WhisperX (m-bain/whisperX, BSD-2-Clause license)는 faster-whisper 상단에 구축된 Python 레이어로, 기본 구현에는 없는 세 가지 기능을 추가합니다: 음성 활동 감지 (Voice Activity Detection, VAD) 전처리 (침묵 구간 전사를 방지하기 위해 Silero-VAD 사용), wav2vec2 모델을 사용한 단어 단위 강제 정렬 (Word-level forced alignment, 타임스탬프 드리프트를 약 1초에서 100ms 미만으로 단축), 그리고 pyannote.audio를 사용한 화자 분리 (Speaker diarization)입니다. 이 프로젝트는 GPU를 사용하여 large-v2 모델에 배치 추론 (Batched inference)을 적용할 경우 실시간 전사 속도가 70배에 달한다고 주장합니다. 실제 결과는 오디오 분당 WhisperX가 순수 faster-whisper보다 느리다는 것입니다. 정렬 과정 (Alignment pass)에서 시간이 소요되기 때문입니다. 하지만 WhisperX는 각 단어가 언제 발화되었는지, 그리고 누가 말했는지를 실제로 알려주는 결과물을 생성합니다.

의존성 체인 (Dependency chain)이 중요합니다: WhisperX는 내부적으로 faster-whisper를 호출합니다. Whisper.cpp는 공유되는 코드가 없는 별개의 코드베이스입니다.

하드웨어 및 시스템 요구 사항

	faster-whisper v1.2.1	Whisper.cpp v1.8.4	WhisperX v3.8.5
언어/런타임 (Language/runtime)	Python 3.9+	C/C++ 바이너리	Python 3.9+
...

RTX 3070 Ti (8 GB)에서 SYSTRAN이 벤치마크한 13분 길이의 오디오 클립에 대한 VRAM 사용량:

설정 (Configuration)	VRAM	전사 시간 (Transcription time)
large-v3 FP16 (표준)	~4.5 GB	~1m03s
...

Whisper.cpp 디스크 저장 모델 크기 (RAM 점유율은 대략적으로 일치함):

모델 (Model)	메모리 (Memory)
tiny	~273 MB
...

Metal 가속을 사용하는 Whisper.cpp 기반의 M2 Pro에서는 large-v3-turbo를 사용하여 60초 분량의 클립을 약 6초 만에 처리합니다. 이는 실시간 대비 약 10배 속도입니다. Core ML을 활성화하여 인코더 (Encoder)를 Apple Neural Engine에서 실행하면 Metal 전용 사용 시보다 약 3배의 추가 속도 향상을 얻을 수 있습니다. Apple Silicon 사용자에게 Whisper.cpp는 2026년 현재 사용 가능한 가장 빠른 로컬 전사 옵션입니다.

WhisperX는 beam_size=5 설정의 large-v2 모델 사용 시 8 GB 미만의 VRAM을 요구하며, 이는 동일한 백엔드를 사용하기 때문에 faster-whisper의 수치와 일치합니다. 추가적인 pyannote 화자 분리 (diarization) 모델이 약간의 오버헤드를 더합니다.

하드웨어를 확정하기 전에 GPU 집약적인 전사 (transcription) 워크로드를 테스트하려면, RunPod에서 A100 및 H100 인스턴스를 시간 단위로 대여할 수 있습니다. 로컬 AI 작업을 위한 GPU 선택 가이드에 대해서는 runaihome.com에서 하드웨어 트레이드오프 (tradeoffs)를 심도 있게 다루고 있습니다.

설치 (Installation)

faster-whisper

pip install faster-whisper

GPU 가속을 위해서는 cuBLAS 및 cuDNN 9이 포함된 CUDA 12가 필요합니다. 만약 CUDA 11을 사용 중이라면, ctranslate2를 3.24.0 버전으로 다운그레이드하십시오.

기본 사용법:

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="int8")
...

배치 추론 (Batched inference) — 긴 파일이나 많은 파일을 처리할 때 훨씬 더 빠릅니다:

from faster_whisper import WhisperModel, BatchedInferencePipeline

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
...

Whisper.cpp

소스 코드로부터 빌드 — 유일한 설치 경로입니다:

git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
cmake -B build
...

Metal 가속을 사용하는 macOS의 경우:

cmake -B build -DWHISPER_METAL=1
cmake --build build -j --config Release

Core ML (Apple Neural Engine — M-시리즈에서 Metal 단독 사용 시보다 인코더를 약 3배 더 빠르게 실행)의 경우:

cmake -B build -DWHISPER_COREML=1
cmake --build build -j --config Release

바이너리는 wav 입력을 직접 수용합니다. mp3/m4a/기타 형식을 위해서는 ffmpeg가 변환을 처리합니다: ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav.

WhisperX

pip install whisperx

CUDA 12.8이 필요합니다.