무료 Whisper API 비교: Groq, Deepgram, AssemblyAI

무료 Whisper API: Groq, Deepgram, AssemblyAI 비교

OpenAI의 Whisper는 Llama가 오픈 채팅 모델을 변화시킨 것과 마찬가지로 음성-텍스트 변환(Speech-to-Text) 기술을 변화시켰습니다. 즉, 업계 전체가 호스팅, 미세 조정(Fine-tuning)하고 일반 하드웨어에서 실행할 수 있는 최첨단 자동 음성 인식 (ASR) 모델을 제공한 것입니다. 2년이 지난 지금, 대부분의 개발자에게 던져지는 질문은 이제 _어떤 모델을 사용할 것인가_가 아니라, _어떤 호스팅 API가 비용 부담 없이 Whisper 수준의 전사(Transcription)를 제공하는가_입니다.

2026년 현재, 세 곳의 제공업체가 이 질문에 대한 답을 주도하고 있습니다: Groq, Deepgram, 그리고 AssemblyAI입니다. 세 곳 모두 호스팅된 API를 통해 Whisper(또는 Whisper급 모델)를 제공하며, 첫 전사를 무료로 이용할 수 있는 경로를 제공합니다. 이들 중 어느 곳도 GPU 인스턴스를 생성하거나, CUDA 드라이버를 관리하거나, Python 오디오 의존성 트리와 싸울 필요를 요구하지 않습니다. 하지만 "무료"의 의미는 업체마다 크게 다르며, 올바른 선택은 전적으로 당신이 무엇을 만들고 있는지에 달려 있습니다.

이 가이드는 실제로 중요한 지표들, 즉 실제 무료 티어(Free-tier)의 한도, 한도 초과 시 시간당 비용, 지원 언어, 지연 시간(Latency), 파일 크기 제한, 그리고 트래픽이 증가할 때 직면하게 될 엔지니어링 트레이드오프(Engineering trade-offs)를 기준으로 세 곳을 비교합니다. 인용된 모든 수치는 제공업체의 자체 가격 책정 또는 문서 페이지로 연결되며, 여기서 다루는 내용은 조작된 벤치마크 연출이 아닙니다.

30초 요약 답변

제공업체	무료 경로	Whisper 모델	유료 요금 (최저가)	최적의 용도
Groq	완전 무료 티어, 카드 불필요	whisper-large-v3 + turbo	$0.04/hr (turbo)	빠른 배치 전사, 해커톤, 사이드 프로젝트
...

조건이 없고 카드 등록도 필요 없는 무료 티어를 통해 실제 사이드 프로젝트를 출시하고 싶다면, Groq가 유일한 선택지입니다. 만약 200달러 정도의 테스트 여유 자금을 가지고 고품질의 프로덕션 전사 스택을 구축하고 싶다면, Deepgram이 승자입니다. 만약 하나의 요청 내에서 Whisper와 더불어 추가적인 NLP 기능(챕터 감지, 감성 분석, 개체명 인식, 요약) 스택을 함께 사용하고 싶다면, AssemblyAI가 가장 깔끔한 단일 API 선택지입니다.

이 기사의 나머지 부분에서는 그 이유를 자세히 파헤칩니다.

왜 “무료 Whisper API”를 검색할 가치가 있는가

공식 OpenAI Whisper API의 비용은 오디오 분당 $0.006이며, 이는 시간당 $0.36에 해당합니다. 실제 작업량을 계산해 보기 전까지는 저렴하게 들릴 수 있습니다:

월 1,000시간을 처리하는 팟캐스트 전사 (Transcription) 도구 = OpenAI 이용 시 월 $360
고객당 월 평균 50시간을 사용하는 200명의 고객을 보유한 미팅 봇 SaaS = 월 $3,600
월 10,000시간의 오디오를 처리하는 사용자 생성 콘텐츠 (UGC) 플랫폼 = 월 $3,600

자체 GPU에서 Whisper를 셀프 호스팅 (Self-hosting)하는 것이 규모가 커질수록 더 저렴하지만, 이는 실제로 GPU를 보유하고 있고, 이를 계속 실행할 수 있는 데브옵스 (DevOps) 역량이 있으며, 인스턴스가 유휴 상태로 남지 않을 만큼 충분한 작업량이 있을 때만 해당됩니다. 이에 해당하지 않는 90%의 프로젝트들에게 질문은 다음과 같습니다: 어떤 호스팅 API가 가장 저렴한 진입 경로를 제공하는가? 이것이 바로 아래의 제공업체들이 경쟁하는 지점입니다.

이 시장에서 “무료”가 실제로 의미하는 것

2026년 현재 제공되는 “무료 Whisper API”에는 두 가지 뚜렷한 형태가 있습니다:

진정한 무료 티어 (Genuine free tier): 모든 계정에 부여되며 매일 또는 매월 충전되는 영구적인 무료 할당량으로, 신용카드가 필요하지 않습니다. 음성-텍스트 변환 (Speech-to-text) 분야에서 이를 시행하는 주요 제공업체는 Groq가 유일합니다.
가입 시 무료 크레딧 (Free credits at signup): 유료 요율로 소진하게 되는 일회성 크레딧 지갑($50–$200)입니다. 크레딧을 다 쓰면 비용을 지불하거나 중단해야 합니다. Deepgram과 AssemblyAI가 이 모델을 사용합니다.

두 방식 모두 유용하며, 단지 프로젝트의 서로 다른 단계에 적합할 뿐입니다. 무료 티어 API는 개인용 도구, 데모, 또는 예측 가능한 낮은 볼륨의 작업량에 이상적입니다. 무료 크레딧은 높은 동시성 (Concurrency)이나 프리미엄 기능 (화자 분리 (Diarization), 요약 (Summarization))이 초기에 필요한 프로토타입에 더 적합하며, 제품이 실제 서비스가 되었을 때 유료 사용으로 깔끔하게 전환할 수 있습니다.

Groq Whisper API: 유일한 진정한 무료 티어

Groq는 어떤 GPU 클라우드보다도 Llama 및 DeepSeek를 더 빠르게 처리하는 언어 처리 장치 (LPUs, Language Processing Units)를 통해 명성을 쌓았습니다. 2025년에 이들은 해당 인프라를 OpenAI의 Whisper 모델로 확장했으며, 다른 모든 Whisper 호스트와 달리 이메일 주소만 있으면 누구나 사용할 수 있는 카드 등록이 필요 없는 진정한 무료 티어 (Free tier)를 제공합니다.

제공되는 모델

Model ID	유료 가격	설명
`whisper-large-v3`	$0.111/hour	OpenAI의 플래그십 Whisper 체크포인트, 가장 높은 정확도
`whisper-large-v3-turbo`	$0.04/hour	증류된 (Distilled) 모델, 약 8배 빠름, 긴 오디오에서 약간의 정확도 저하

두 모델 모두 다국어를 지원하며 (전사 (Transcription)를 위해 99개 이상의 언어 지원), 모든 소스 언어로부터 영어 텍ек스트를 반환하는 별도의 번역 엔드포인트 (Translation endpoint)를 지원합니다. 최소 과금 단위는 10초입니다. 즉, 2초짜리 클립이라도 10초로 청구됩니다.

무료 티어의 한계 (실질적인 기준)

두 Whisper 모델에 대해 Groq가 공개한 무료 티어의 속도 제한 (Rate limits)은 다음과 같습니다:

분당 20회 요청 (Requests per minute)
일일 2,000회 요청 (Requests per day)
시간당 7,200 오디오 초 (Audio seconds per hour) (매 시간 2시간 분량의 오디오)
일일 28,800 오디오 초 (Audio seconds per day) (매일 8시간 분량의 오디오)
무료 티어 최대 파일 크기 25 MB, 유료 개발자 티어 (Dev tier)는 100 MB

이러한 한계치는 "무료" 티어치고는 이례적으로 관대합니다. 카드 등록도 필요 없고 만료 기간도 없는 매일 8시간의 전사 오디오는, 실제 팟캐스트 전사 사이드 프로젝트나 개인용 일일 회의록 도구를 무기한으로 운영하기에 충분합니다. 만약 25 MB 파일 제한을 초과한다면, 전송하기 전에 ffmpeg를 사용하여 오디오를 청크 (Chunk)로 나누세요. Groq의 문서에는 권장되는 청킹 스니펫 (Chunking snippet)이 포함되어 있습니다.

코드: Groq로 파일 전사하기

curl https://api.groq.com/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GROQ_API_KEY" \
  -F "file=@meeting.mp3" \
...

OpenAI SDK를 사용한 Python (Groq는 이 엔드포인트에서 OpenAI와 호환됩니다):

from openai import OpenAI

client = OpenAI(
...

verbose_json 응답에는 자막(captions), 검색 인덱싱(search indexing) 또는 LLM 요약(summarization)에 활용할 수 있는 단어 또는 세그먼트(segment) 단위의 타임스탬프(timestamps)가 포함됩니다. 단순히 텍스트 전사(transcript) 문자열만 필요한 경우, response_format=text를 사용하면 JSON 래퍼(envelope)를 제거할 수 있습니다.

Groq이 적합하지 않은 경우

내장된 화자 분리(speaker diarization) 기능 부재. Whisper 자체는 화자의 차례를 예측하지 않습니다. Deepgram과 AssemblyAI는 전사(transcription)와 함께 별도의 화자 분리 모델을 실행합니다. "화자 1 / 화자 2"와 같은 출력이 필요한 경우, Groq 앞에 pyannote.audio 또는 호스팅된 화자 분리기를 연결하거나 다른 제공업체를 선택해야 합니다.
장시간 실행되는 비동기 작업(async jobs) 미지원. 모든 요청은 동기(synchronous) 방식으로 이루어집니다. 약 60분 이상의 파일의 경우, 직접 청크(chunk)로 나누고 병합해야 합니다.
무료 티어(free tier)에서의 프로덕션 SLA 미보장. 제한 사항은 가끔 변경될 수 있습니다. 프로덕션 워크로드(production workloads)는 유료인 Dev 티어에서 운영해야 합니다.

Deepgram Whisper Cloud: 200달러 규모의 프로덕션 경로

Deepgram은 Whisper가 존재하기 훨씬 전부터 음성-텍스트 변환(speech-to-text) 분야를 주도해 온 주요 프로덕션 벤더 중 하나입니다. 이들은 자체 ASR(Automatic Speech Recognition) 모델 제품군(현재 플래그십인 Nova-3, Nova-2, 그리고 실시간 Flux 모델)을 운영하며, Whisper Cloud라는 관리형 제품으로 Whisper도 호스팅합니다. Whisper Cloud는 하나의 API 키 뒤에서 자체 모델들과 나란히 배치되어 있으므로, 동일한 오디오에 대해 두 모델을 A/B 테스트하고 귀하의 데이터에 더 적합한 것을 선택할 수 있습니다.

무료 경로: 200달러의 크레딧

Deepgram은 모든 신규 계정에 카드 등록 없이 가입 시 200달러의 API 크레딧을 제공합니다. 이들의 가격 페이지에는 이를 "200달러 무료 크레딧 제공 후 사용한 만큼 결제(pay as you go)"라고 설명합니다. 크레딧에 정해진 만료일이 없다는 점은 이례적입니다. 대부분의 경쟁사는 30~90일 후에 크레딧이 만료됩니다.

Whisper Cloud의 공시된 요율(분당 약 $0.0048, 본 문서 작성 시점 기준 시간당 약 $0.288, 무료 티어의 동시성(Concurrency)은 5개 스트림으로 제한)을 기준으로 할 때, $200의 크레딧은 제품을 본격적으로 도입하기 전 평가할 수 있는 약 700시간의 Whisper 전사(Transcription) 분량을 제공합니다. 만약 Deepgram 자체 모델인 Nova-3가 충분히 훌륭하다고 판단된다면(영어 오디오의 경우 대개 그렇습니다), Nova-3는 분당 비용이 더 저렴하고 속도가 더 빠르기 때문에 $200로 더 많은 양을 처리할 수 있습니다.

Whisper Cloud vs Nova-3: Deepgram이 제안하는 트레이드오프 (Trade-off)

Whisper Cloud는 이미 Whisper를 통해 데이터를 처리하고 있으며, 자체 호스팅 추론(Self-hosted inference)을 대체할 호스팅 서비스를 찾는 팀들을 위한 호환성 옵션으로 포지셔닝되어 있습니다. 새로운 구축을 위한 Deepgram의 실제 권장 사항은 Nova-3이며, 그 이유는 다음과 같습니다:

Nova-3가 분당 비용이 더 저렴함
Nova-3는 단일 요청 내에 화자 분리 (Speaker diarization), 스마트 포맷팅 (Smart formatting), 언어 감지 (Language detection), 비속어 필터링 (Profanity filtering) 기능이 내장되어 있음
Nova-3는 실시간 스트리밍 (Real-time streaming)을 일급 기능(First-class feature)으로 지원함; 반면 Whisper는 근본적으로 배치 (Batch) 방식임

2026년 기준 대부분의 프로덕션 영어 전사 파이프라인(Transcription pipeline)에는 Nova-3가 더 나은 해답입니다. 만약

$200를 다 쓰면 그때부터는 유료입니다. 그 뒤에 대기 중인 무료 티어(Free tier)는 없습니다. 이에 맞춰 예산(Runway)을 계획하세요.
높은 동시성(Concurrency)을 위해서는 유료 플랜이 필요합니다. 체험판의 5개 스트림 제한은 평가용으로는 충분하지만, 실제 동시 배치 파이프라인(Concurrent batch pipeline)을 배포하기에는 부족합니다.
Whisper Cloud는 Deepgram의 전략적 우선순위가 아닙니다. Nova 모델이 새로운 기능을 먼저 가져갈 것으로 예상하십시오. Whisper Cloud는 호환성 및 평가용 제품입니다.

AssemblyAI: Whisper에 전체 NLP 스택을 더하다

AssemblyAI는 다른 접근 방식을 취합니다. "우리는 Whisper를 저렴하게 호스팅한다"로 경쟁하는 대신, 전사(Transcription)를 기반으로 그 위에 쌓인 모든 가치 — 챕터 감지(Chapter detection), 감성 분석(Sentiment analysis), 개체명 인식(Named-entity extraction), 콘텐츠 모더레이션(Content moderation), 요약(Summarization), 주제 분류(Topic classification) — 를 제공하는 계층화된 음성 지능 플랫폼을 판매합니다. 이 모든 기능은 전사 결과물을 생성하는 동일한 요청(Request) 내에서 사용할 수 있습니다.

무료 경로: $50의 크레딧

AssemblyAI는 신규 계정에 가입 시 신용카드 요구 없이 $50의 크레딧을 제공합니다. 관련 있는 두 가지 모델은 다음과 같습니다:

Universal-3 Pro (Async) — 현재 이들의 플래그십 사전 녹음 모델로, 작성 시점 기준 시간당 $0.15입니다. 새로운 빌드에 권장됩니다.
Whisper-Streaming — AssemblyAI의 인프라에서 호스팅되는 오픈 소스 Whisper 모델로, 시간당 $0.30이며 99개 이상의 언어를 지원합니다.

$50의 크레딧은 대략 Whisper-Streaming 166시간 또는 Universal-3 Pro 333시간을 커버합니다. 이는 비용을 지불하기 전 프로토타입 제작, 데모, 또는 밀려 있는 회의 녹음본을 전사하기에 충분한 양입니다.

Groq의 Whisper 대신 AssemblyAI를 선택해야 하는 이유

답은 거의 항상 다음과 같습니다: 계층화된 기능들도 함께 필요하기 때문입니다. 만약 전사된 텍스트만 필요하다면, Groq의 무료 티어가 엄격하게 더 낫습니다. 동일한 모델 제품군을 사용하면서도 카드 등록도 필요 없고 크레딧 제한 시간도 없습니다. AssemblyAI를 구매해야 하는 이유는 단일 API 호출에 sentiment_analysis: true 또는 auto_chapters: true를 추가하면 다음과 같은 결과를 반환하기 때문입니다:

문장별 감성 분석 (신뢰도와 함께 긍정 / 부정 / 중립)
긴 형식의 오디오를 위한 헤드라인이 포함된 자동 생성 챕터 경계
타임스탬프가 포함된 개체명 (PERSON, ORG, LOCATION 등)
IAB 분류 체계에 따른 주제 카테고리
전사 데이터 내 개인정보(PII) 삭제

Groq 위에 해당 스택을 재현하려면 두 번째 LLM 호출, 자체적인 개체 추출 (entity-extraction) 프롬프트, 그리고 자체적인 챕터 구분 로직이 필요합니다. 단일 프로젝트라면 괜찮습니다. 하지만 SaaS 제품의 경우, 이를 직접 구현하는 데 드는 통합 비용이 시간당 가격 차이를 빠르게 초과하게 됩니다.

코드: AssemblyAI로 전사하기

AssemblyAI의 API는 단일 멀티파트 POST 방식이 아닌 2단계(업로드 + 전사) 방식입니다:

import os, requests, time

API_KEY = os.environ["ASSEMBLYAI_API_KEY"]
...

AssemblyAI가 적합하지 않은 경우

과도한 워크로드 발생 시 무료 크레딧이 빠르게 소진됩니다. 50달러는 Deepgram의 200달러와 비교하면 대략 4분의 1 수준입니다.
2단계 업로드로 인해 지연 시간 (latency)이 추가됩니다. 어떤 경우에는 큰 파일의 업로드 시간이 전사 시간보다 더 오래 걸릴 수 있습니다.
Universal-3 Pro는 Whisper가 아닙니다. 코드베이스나 계약 조건에서 Whisper 출력을 명시적으로 요구한다면, 명시적으로 Whisper-Streaming을 선택하고 더 높은 시간당 요율을 수용해야 합니다.