【Nishika 논문 요약 제12회】 Whisper의 10배속: Canary-1B-v2 & Parakeet-TDT-0.6B-v3

요약

NVIDIA가 Whisper의 한계를 극복하기 위해 출시한 고속·고효율 ASR 모델 Canary-1B-v2와 Parakeet-TDT-0.6B-v3를 소개합니다. FastConformer 인코더와 TDT 디코더 기술을 통해 정밀도를 유지하면서도 추론 속도를 획기적으로 높였습니다.

핵심 포인트

FastConformer를 통해 인코더 단독으로 2~3배 속도 향상
TDT 기술로 토큰과 지속 시간을 동시 예측하여 디코딩 스텝 절감
170만 시간의 대규모 데이터와 2단계 밸런싱 기법 적용
무음 구간의 할루시네이션 방지를 위한 데이터 설계

논문

목적

Whisper를 비롯한 다국어 ASR (Automatic Speech Recognition, 자동 음성 인식) 모델은 정밀도가 높은 반면, 크고 느리다는 과제가 있다. 정밀도, 크기, 속도의 트레이드오프 (Trade-off)가 항상 따라다닌다.

NVIDIA는 이 과제에 대해 25개의 유럽 언어에 대응하면서 추론을 고속화한 두 가지 모델을 동시에 출시했다.

Canary-1B-v2: ASR (음성 전사) + AST (Automatic Speech Translation, 자동 음성 번역)의 다기능 모델

Parakeet-TDT-0.6B-v3: ASR 특화, 속도를 극한까지 추구한 소형 모델

둘 다 CC-BY-4.0 (상업적 이용 가능).

수법

전단

Conformer라는 Transformer와 CNN을 결합한 모듈이 있으며,

그것을 고속화한 FastConformer라는 모듈이 있다. 이 논문에서는 그것을 Encoder (인코더)로 채택하고 있다.

Encoder (인코더): FastConformer

Canary-1B-v2 / Parakeet-TDT 모두에 사용된다.

통상적인 Conformer에서 3가지 점을 개선하여, 인코더 단독으로 2~3배의 고속화를 실현.

8배 다운샘플링 (Downsampling): 입력을 처음에 1/8로 압축하여 처리량을 절감 -
Depthwise Separable Convolution: 컨볼루션 (Convolution)을 경량화 -
커널 사이즈 (Kernel Size) 축소: 31→9

또한 논문에서는 nGPT (모든 임베딩을 단위 구면에 제약하는 아키텍처)도 실험하고 있다. 사전 학습 단계에서는 nGPT의 수렴이 빨랐으나, fine-tuning (미세 조정) 후의 최종 정밀도는 FastConformer가 승리했기 때문에 제품에는 FastConformer를 채택.

Decoder (디코더): 용도에 따른 구분

Canary-1B-v2	Parakeet-TDT-0.6B-v3
디코더	Transformer (자기회귀)
...

TDT는 '다음 토큰'과 '그 지속 시간'을 동시에 예측함으로써 디코딩 스텝 수를 절감한다. 타임스탬프 (Timestamp)도 duration (지속 시간) 예측으로부터 직접 얻을 수 있다.

Canary-1B-v2와 Parakeet-TDT-0.6B-v3의 차이

【Canary-1B-v2】
음성 입력 → [FastConformer Encoder] → [Transformer Decoder] → 텍스트 출력
(자기회귀, 번역도 가능)
...

데이터 설계 (최대의 고안)

합계 170만 시간, 3가지 고안이 정밀도를 뒷받침하고 있다.

① 의사 라벨 (Pseudo Label) + 수동 라벨의 조합

데이터	규모	종류
Granary (NVIDIA 제작 다국어 데이터셋)	약 100만 시간	의사 라벨
...

② 할루시네이션 (Hallucination, 환각) 대책

Whisper 기반의 의사 라벨링은 무음에서도 무언가를 출력하는 할루시네이션을 일으키기 쉽다. 비음성 데이터에 빈 문자열 타겟을 붙여 학습함으로써 '무음이라면 출력하지 않는다'를 명시적으로 학습시켰다.

**③ 2단계 밸런싱 (Balancing)

영어가 ASR 데이터의 40%를 차지하며, 저자원 언어 (우크라이나어 790시간 등)와의 차이가 심하다. 이를 2단계 샘플링으로 균형을 맞춘다.

언어 내에서 코퍼스 (Corpus)를 밸런싱 (α=0.5)
언어 간을 밸런싱 (β=0.5)

이 순서가 중요하다. 반대로 하면 저자원 코퍼스가 언어 간 밸런싱 전에 사라지게 된다.

학습: 3단계 구성

Stage 1: X→En 번역 + 영어 ASR (64× A100, 150,000 steps)
Stage 2: 모든 태스크 · 170만 시간 (100,000 steps 추가)
Stage 3: 고품질 서브셋만으로 fine-tuning (각 언어 200시간으로 균일화)

2단계로 나눔으로써 Stage 2 이후의 실험 비용을 절감할 수 있는 설계로 되어 있다.

결과

영어 ASR (HF Open ASR Leaderboard)

https://arxiv.org/pdf/2510.06961 (on an NVIDIA A100-SXM4-80GB GPU)

모델	RTFx (속도)	Avg WER↓	AMI	LS Clean
Whisper-large-v3	145	7.44%	15.95	2.01
Phi-4-multimodal	62	6.14%	11.45	1.67
Parakeet-TDT-0.6B-v3	3,332	6.32%	11.39	1.92
Canary-1B-v2	749	7.15%	16.01	2.18

RTFx = 몇 배속으로 처리할 수 있는가 (클수록 빠름).

Parakeet-TDT-0.6B-v3는 Whisper보다 23배 빠르며, 정확도도 더 높음. Canary-1B-v2 또한 Whisper보다 5배 빠르며 정확도 면에서 앞선다.

다국어 · 번역

Canary-1B-v2는 SeamlessM4T-v2-large (CC-BY-NC, 상업적 이용 불가)와 비교하여, 25개 언어의 ASR (자동 음성 인식) 및 번역 (X: 프랑스어 → En: 영어)에서 경쟁력 있는 정확도를 달성했다. 모델 크기는 SeamlessM4T-v2-large의 2.3B와 비교하여 2배 이상 작은 1.2B이다.

논문: Sekoyan et al., arXiv:2509.14128, 2025

모델: Canary-1B-v2 / Parakeet-TDT-0.6B-v3

감상

둘 다 고속화를 목적으로 한 모델이지만, 컨슈머 단말기에서 이용했을 때의 UX (사용자 경험)가 어떨지 보고 싶다.

Fast XX라고 이름을 붙였는데, 이것보다 더 빠른 것이 나왔을 때는 이름을 뭐라고 지어야 할까 하는 생각이 들었다. (More^5 Fast XX?)

(오늘의 가상 상황) 다음은 가상의 스포츠·직구 전문가, 니카와 켄이치 씨입니다. 감사합니다.

마치며

Nishika 엔지니어 팀에서는 매주 진행되는 'AI 요모야마(이런저런) 연구 정례 회의'를 비롯하여, 매일 눈여겨본 뉴스나 논문을 가볍게 Pick 하여 이야기 나누고 있습니다.

단순히 이야기하는 것에 그치지 않고, Nishika의 유래인 우리 '자신들만이(니시카)' 할 수 있는 일은 무엇인지, 사용자에게 제공할 수 있는 가치는 무엇인지 고민하며 AI의 미래, 엔지니어링의 미래를 생각하고 있습니다.

이러한 미래를 함께 고민하고 만들어 나갈 동료를 모집하고 있습니다. 관심이 있으신 분은 꼭 연락해 주시기 바랍니다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기