HuggingFace헤드라인2026. 05. 07. 13:11

Inference Endpoints 를 활용한 초고속 Whisper 전사

요약

본 기사는 Hugging Face Inference Endpoints를 활용하여 Whisper 모델의 전사(transcription) 속도를 극대화하는 방법을 설명합니다. vLLM 프로젝트와 PyTorch 컴파일레이션, CUDA graphs, float8 KV cache 양자화 등 최신 AI 최적화 기술들을 결합하여, NVIDIA GPU 환경에서 기존 대비 획기적으로 빠른 추론 성능을 달성했습니다. 이를 통해 사용자는 복잡한 ASR 파이프라인을 간편하게 배포하고, 높은 전사 품질과 실시간 효율성을 갖춘 서비스를 구축할 수 있습니다.

핵심 포인트

Inference Endpoints를 활용하여 누구나 쉽게 고성능 AI 모델 배포가 가능합니다.
vLLM 기반의 Whisper 구현은 PyTorch 컴파일레이션, CUDA graphs, float8 KV cache 등 다층적인 최적화를 통해 초고속 추론을 실현했습니다.
최신 기술들은 GPU 오버헤드를 줄이고 메모리 요구량을 낮춰 전반적인 효율성을 극대화합니다.
Whisper Large V3 등의 모델은 다양한 표준 데이터셋에서 높은 WER 성능을 유지하며, 실제 장문 데이터셋에서도 뛰어난 실시간 추론 효율성(RTFx)을 입증했습니다.

Inference Endpoints 를 활용한 초고속 Whisper 전사

이번 릴리스를 통해 우리는 Inference Endpoints 를 더 커뮤니티 중심 (community-centric) 으로 만들고, 누구나 Hugging Face Platform 에서 놀라운 inference deployments 를 만들기 위해 기여할 수 있도록 허용하고자 합니다. 커뮤니티와 함께, 우리는 훌륭한 그리고 이용 가능한 오픈소스 기술을 활용하여 다양한 작업에 최적화된 deployments 를 제안하고자 합니다.

Hugging Face 는 Open-Source AI Community 의 중심에 위치하며, 개인, 기관 및 산업 파트너들과 손잡고 일함으로써, 다양한 하드웨어와 소프트웨어에서 inference 를 위한 AI 모델을 배포할 때 가장 이질적인 (heterogeneous) 플랫폼이 됩니다.

새로운 Whisper endpoint 는 놀라운 오픈소스 커뮤니티 프로젝트들을 활용합니다. Inference 는 vLLM 프로젝트에 의해 구동되며, 이는 NVIDIA GPUs 를 포함한 다양한 하드웨어 패밀리에서 AI 모델을 실행하는 효율적인 방법을 제공합니다. 우리는 OpenAI 의 Whisper 모델의 vLLM 구현을 사용하여 소프트웨어 스택을 더 낮은 수준으로 추가적인 최적화를 가능하게 합니다.

이번 초기 릴리스에서는 compute capabilities 8.9 또는 그 이상의 NVIDIA GPUs 를 대상으로 하며, 이는 L4 & L40s 와 같은 Ada Lovelace 를 포함하여 다양한 소프트웨어 최적화를 해제합니다:

PyTorch 컴파일레이션 (torch.compile)
CUDA graphs
float8 KV cache

torch.compile와 함께 컴파일레이션은 Just-In-Time (JIT) 방식에서 최적화된 kernels 를 생성하며, 이는 계산 그래프를 수정하고 연산 순서를 재배치하고, 전문적인 방법들을 호출할 수 있습니다.

CUDA graphs 는 GPU 에서 발생하는 순차적 연산 또는 kernels 의 흐름을 기록하며, 이를 GPU 에서 실행하기 위한 더 큰 작업 단위로 그룹화하는 것을 시도합니다. 이 그룹화 작업은 여러 개의 작은 것들이 아닌 단일의 훨씬 더 큰 작업 단위를 실행함으로써 데이터 이동, 동기화 및 GPU 스케줄링 오버헤드를 줄입니다.

마지막으로, 우리는 KV cache(s) 에 의해 유발되는 메모리 요구량을 줄이기 위해 activations 을 동적으로 양자화합니다. 계산은 반 정밀도 (이 경우 bfloat16) 에서 수행되며, 출력은 감소된 정밀도로 저장됩니다 (float8 는 1 바이트, bfloat16 은 2 바이트) 이는 KV cache 에 더 많은 요소를 저장할 수 있게 하며, 캐시 히트율을 증가시킵니다.

이것을 계속 밀어붙이는 방법은 많으며, 우리는 커뮤니티와 손잡고 이를 개선하기 위해 준비 중입니다!

Whisper Large V3 는 RTFx 에서 거의 8 배의 개선을 보여주고 있으며, 전사 품질에 손실 없이 훨씬 더 빠른 inference 를 가능하게 합니다.

우리는 Whisper 기반 모델들의 전사 품질과 런타임 효율성을 평가했습니다—Whisper Large V3, Whisper Large V3-Turbo, 그리고 Distil-Whisper Large V3.5—and 동일한 조건 하에서 정확도와 디코딩 속도를 평가하기 위해 Transformers 라이브러리 구현들과 비교했습니다.

우리는 AMI, GigaSpeech, LibriSpeech (Clean 와 Other), SPGISpeech, Tedlium, VoxPopuli, 그리고 Earnings22 를 포함한 Open ASR Leaderboard 의 8 개의 표준 데이터셋을 통해 Word Error Rate (WER) 을 계산했습니다. 이 데이터셋들은 다양한 도메인과 녹음 조건을 포함하며, 일반화 및 실제 전사 품질의 견고한 평가를 보장합니다. WER 는 삽입, 삭제 또는 치환을 통한 잘못 예측된 단어의 비율을 계산하여 전사 정확도를 측정합니다; 더 낮은 WER 은 더 나은 성능을 의미합니다. 모든 세 가지 Whisper 변형은 Transformer 베이스라인과 비교 가능한 WER 성능을 유지합니다.

추론 효율성을 평가하기 위해 rev16 장문 데이터셋에서 샘플링을 수행했습니다. 이 데이터셋은 45 분 이상의 오디오 세그먼트를 포함하며, 회의, 팟캐스트 또는 인터뷰와 같은 실제 전사 작업 부하를 대표합니다. 우리는 오디오 지속 시간과 전사 시간의 비율로 정의된 실시간 인자 (RTFx) 를 측정하고 샘플에 걸쳐 평균을 계산했습니다. 모든 모델은 일관된 디코딩 설정 (언어, 빔 크기 및 배치 크기) 을 사용하여 단일 L4 GPU 에서 bfloat16 정밀도로 평가되었습니다.

Hugging Face Endpoints 를 통해 자체 ASR 추론 파이프라인을 배포할 수 있습니다. Endpoints 는 AI 모델을 프로덕션 준비 환경에 배포하려는 누구나 몇 가지 매개변수를 입력하여 이를 수행할 수 있도록 합니다. 또한 비용과 성능에 맞는 시장에서 가장 완벽한 AI 하드웨어 플릿도 제공합니다. 이는 모든 것이 AI 커뮤니티가 구축되고 있는 곳에서 직접적으로 가능합니다. 시작하려면, 더 쉬운 것은 배포하고 싶은 모델을 선택하는 것뿐입니다.

배포된 모델 엔드포인트에서 추론을 실행하려면 몇 줄의 코드로 Python 에서 수행할 수 있으며, JavaScript 나 편안하게 사용하는 다른 언어와 동일한 구조를 사용할 수도 있습니다.

배포된 체크포인트를 빠르게 테스트하기 위한 작은 스니펫을 보여드리겠습니다.

import requests
ENDPOINT_URL = "https://<your‑hf‑endpoint>.cloud/api/v1/audio/transcriptions" # 🌐 URL 엔드포인트로 교체
HF_TOKEN = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 🔑 HF 토큰으로 교체
...

이 번개 빠른 엔드포인트를 사용하면 실시간 전사 앱을 구축할 수 있습니다. FastRTC 로 구축된 이 예제를 시도해 보세요. 마이크에 대해 이야기하고 실시간으로 당신의 말을 전사하세요!

Spaces 는 쉽게 복제할 수 있으므로 자유롭게 복제해 주세요. 위의 모든 것은 Hugging Face Hub 의 전용 HF Endpoints 조직에서 커뮤니티용으로 제공됩니다. 이슈를 열고 사용 사례를 제안하고 여기에 기여하세요: hfendpoints-images (추론 엔드포인트 이미지) 🚀

AI 자동 생성 콘텐츠

원문 바로가기

Inference Endpoints 를 활용한 초고속 Whisper 전사

요약

핵심 포인트

Inference Endpoints 를 활용한 초고속 Whisper 전사

댓글