본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 13:11

Inference Endpoints 를 활용한 초고속 Whisper 전사

요약

본 기사는 Hugging Face Inference Endpoints를 활용하여 Whisper 모델의 전사(transcription) 속도를 극대화하는 방법을 설명합니다. vLLM 프로젝트와 PyTorch 컴파일레이션, CUDA graphs, float8 KV cache 양자화 등 최신 AI 최적화 기술들을 결합하여, NVIDIA GPU 환경에서 기존 대비 획기적으로 빠른 추론 성능을 달성했습니다. 이를 통해 사용자는 복잡한 ASR 파이프라인을 간편하게 배포하고, 높은 전사 품질과 실시간 효율성을 갖춘 서비스를 구축할 수 있습니다.

핵심 포인트

  • Inference Endpoints를 활용하여 누구나 쉽게 고성능 AI 모델 배포가 가능합니다.
  • vLLM 기반의 Whisper 구현은 PyTorch 컴파일레이션, CUDA graphs, float8 KV cache 등 다층적인 최적화를 통해 초고속 추론을 실현했습니다.
  • 최신 기술들은 GPU 오버헤드를 줄이고 메모리 요구량을 낮춰 전반적인 효율성을 극대화합니다.
  • Whisper Large V3 등의 모델은 다양한 표준 데이터셋에서 높은 WER 성능을 유지하며, 실제 장문 데이터셋에서도 뛰어난 실시간 추론 효율성(RTFx)을 입증했습니다.

Inference Endpoints 를 활용한 초고속 Whisper 전사

이번 릴리스를 통해 우리는 Inference Endpoints 를 더 커뮤니티 중심 (community-centric) 으로 만들고, 누구나 Hugging Face Platform 에서 놀라운 inference deployments 를 만들기 위해 기여할 수 있도록 허용하고자 합니다. 커뮤니티와 함께, 우리는 훌륭한 그리고 이용 가능한 오픈소스 기술을 활용하여 다양한 작업에 최적화된 deployments 를 제안하고자 합니다.

Hugging Face 는 Open-Source AI Community 의 중심에 위치하며, 개인, 기관 및 산업 파트너들과 손잡고 일함으로써, 다양한 하드웨어와 소프트웨어에서 inference 를 위한 AI 모델을 배포할 때 가장 이질적인 (heterogeneous) 플랫폼이 됩니다.

새로운 Whisper endpoint 는 놀라운 오픈소스 커뮤니티 프로젝트들을 활용합니다. Inference 는 vLLM 프로젝트에 의해 구동되며, 이는 NVIDIA GPUs 를 포함한 다양한 하드웨어 패밀리에서 AI 모델을 실행하는 효율적인 방법을 제공합니다. 우리는 OpenAI 의 Whisper 모델의 vLLM 구현을 사용하여 소프트웨어 스택을 더 낮은 수준으로 추가적인 최적화를 가능하게 합니다.

이번 초기 릴리스에서는 compute capabilities 8.9 또는 그 이상의 NVIDIA GPUs 를 대상으로 하며, 이는 L4 & L40s 와 같은 Ada Lovelace 를 포함하여 다양한 소프트웨어 최적화를 해제합니다:

  • PyTorch 컴파일레이션 (torch.compile)
  • CUDA graphs
  • float8 KV cache

torch.compile와 함께 컴파일레이션은 Just-In-Time (JIT) 방식에서 최적화된 kernels 를 생성하며, 이는 계산 그래프를 수정하고 연산 순서를 재배치하고, 전문적인 방법들을 호출할 수 있습니다.

CUDA graphs 는 GPU 에서 발생하는 순차적 연산 또는 kernels 의 흐름을 기록하며, 이를 GPU 에서 실행하기 위한 더 큰 작업 단위로 그룹화하는 것을 시도합니다. 이 그룹화 작업은 여러 개의 작은 것들이 아닌 단일의 훨씬 더 큰 작업 단위를 실행함으로써 데이터 이동, 동기화 및 GPU 스케줄링 오버헤드를 줄입니다.

마지막으로, 우리는 KV cache(s) 에 의해 유발되는 메모리 요구량을 줄이기 위해 activations 을 동적으로 양자화합니다. 계산은 반 정밀도 (이 경우 bfloat16) 에서 수행되며, 출력은 감소된 정밀도로 저장됩니다 (float8 는 1 바이트, bfloat16 은 2 바이트) 이는 KV cache 에 더 많은 요소를 저장할 수 있게 하며, 캐시 히트율을 증가시킵니다.

이것을 계속 밀어붙이는 방법은 많으며, 우리는 커뮤니티와 손잡고 이를 개선하기 위해 준비 중입니다!

Whisper Large V3 는 RTFx 에서 거의 8 배의 개선을 보여주고 있으며, 전사 품질에 손실 없이 훨씬 더 빠른 inference 를 가능하게 합니다.

우리는 Whisper 기반 모델들의 전사 품질과 런타임 효율성을 평가했습니다—Whisper Large V3, Whisper Large V3-Turbo, 그리고 Distil-Whisper Large V3.5—and 동일한 조건 하에서 정확도와 디코딩 속도를 평가하기 위해 Transformers 라이브러리 구현들과 비교했습니다.

우리는 AMI, GigaSpeech, LibriSpeech (Clean 와 Other), SPGISpeech, Tedlium, VoxPopuli, 그리고 Earnings22 를 포함한 Open ASR Leaderboard 의 8 개의 표준 데이터셋을 통해 Word Error Rate (WER) 을 계산했습니다. 이 데이터셋들은 다양한 도메인과 녹음 조건을 포함하며, 일반화 및 실제 전사 품질의 견고한 평가를 보장합니다. WER 는 삽입, 삭제 또는 치환을 통한 잘못 예측된 단어의 비율을 계산하여 전사 정확도를 측정합니다; 더 낮은 WER 은 더 나은 성능을 의미합니다. 모든 세 가지 Whisper 변형은 Transformer 베이스라인과 비교 가능한 WER 성능을 유지합니다.

추론 효율성을 평가하기 위해 rev16 장문 데이터셋에서 샘플링을 수행했습니다. 이 데이터셋은 45 분 이상의 오디오 세그먼트를 포함하며, 회의, 팟캐스트 또는 인터뷰와 같은 실제 전사 작업 부하를 대표합니다. 우리는 오디오 지속 시간과 전사 시간의 비율로 정의된 실시간 인자 (RTFx) 를 측정하고 샘플에 걸쳐 평균을 계산했습니다. 모든 모델은 일관된 디코딩 설정 (언어, 빔 크기 및 배치 크기) 을 사용하여 단일 L4 GPU 에서 bfloat16 정밀도로 평가되었습니다.

Hugging Face Endpoints 를 통해 자체 ASR 추론 파이프라인을 배포할 수 있습니다. Endpoints 는 AI 모델을 프로덕션 준비 환경에 배포하려는 누구나 몇 가지 매개변수를 입력하여 이를 수행할 수 있도록 합니다. 또한 비용과 성능에 맞는 시장에서 가장 완벽한 AI 하드웨어 플릿도 제공합니다. 이는 모든 것이 AI 커뮤니티가 구축되고 있는 곳에서 직접적으로 가능합니다. 시작하려면, 더 쉬운 것은 배포하고 싶은 모델을 선택하는 것뿐입니다.

배포된 모델 엔드포인트에서 추론을 실행하려면 몇 줄의 코드로 Python 에서 수행할 수 있으며, JavaScript 나 편안하게 사용하는 다른 언어와 동일한 구조를 사용할 수도 있습니다.

배포된 체크포인트를 빠르게 테스트하기 위한 작은 스니펫을 보여드리겠습니다.

import requests
ENDPOINT_URL = "https://<your‑hf‑endpoint>.cloud/api/v1/audio/transcriptions" # 🌐 URL 엔드포인트로 교체
HF_TOKEN = "hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 🔑 HF 토큰으로 교체
...

이 번개 빠른 엔드포인트를 사용하면 실시간 전사 앱을 구축할 수 있습니다. FastRTC 로 구축된 이 예제를 시도해 보세요. 마이크에 대해 이야기하고 실시간으로 당신의 말을 전사하세요!

Spaces 는 쉽게 복제할 수 있으므로 자유롭게 복제해 주세요. 위의 모든 것은 Hugging Face Hub 의 전용 HF Endpoints 조직에서 커뮤니티용으로 제공됩니다. 이슈를 열고 사용 사례를 제안하고 여기에 기여하세요: hfendpoints-images (추론 엔드포인트 이미지) 🚀

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0