arXiv논문2026. 06. 15. 08:16

파라미터 클러스터링을 이용한 음성 파운데이션 모델의 데이터 프리 및 트레이닝 프리 압축 연구

요약

k-means 클러스터링을 활용하여 음성 파운데이션 모델을 데이터와 트레이닝 없이 압축하는 새로운 연구를 제시합니다. HuBERT 및 Whisper 모델 실험 결과, 기존 방식 대비 현저히 낮은 단어 오류율(WER)을 기록하며 압축 성능을 입증했습니다.

핵심 포인트

k-means 기반 채널별 클러스터링을 통한 데이터/트레이닝 프리 압축 방식 제안
레이어별 가변적 클러스터 수를 적용한 혼합 희소성 프루닝 탐구
HuBERT-large 모델에서 기존 방식 대비 대폭 개선된 WER 달성
Whisper-large-v3 모델에서도 높은 압축 효율과 성능 유지 확인

본 논문은 k-means를 통한 채널별 클러스터링 (channelwise clustering)을 사용하여 음성 파운데이션 모델 (speech foundation models)을 위한 새로운 데이터 프리 (data-free) 및 트레이닝 프리 (training-free) 압축 접근 방식을 제시합니다. 또한 레이어 수준에서 가변적인 파라미터 클러스터 수를 사용하는 더 세밀한 혼합 희소성 프루닝 (mixed sparsity pruning)도 탐구합니다. LibriSpeech 데이터셋에서 수행된 실험에 따르면, HuBERT-large 모델에 50%의 프루닝 희소성 (pruning sparsity)을 적용했을 때, 파인튜닝 (fine-tuning) 전 test-clean 및 test-other 서브셋에서 크기 기반 프루닝 (magnitude-based pruning) 대비 각각 27.73%/18.61% 절대적 (34.37%/21.91% 상대적) 감소된 WER (Word Error Rate)을 얻었으며, 단 3 에포크 (epochs)의 파인튜닝 후에는 0.19%/0.79% 절대적 (3.36%/4.62% 상대적) 감소를 기록했습니다. Whisper-large-v3 모델의 10% 희소성 (sparsity) 환경에서도 크기 기반 프루닝 대비 2.86%/5.02% 절대적 (59.21%/55.29% 상대적)의 유사한 WER 감소가 관찰되었으며, 모든 경우에서 압축되지 않은 베이스라인 (baseline) 대비 유의미한 WER 증가 없이 수행되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

파라미터 클러스터링을 이용한 음성 파운데이션 모델의 데이터 프리 및 트레이닝 프리 압축 연구

요약

핵심 포인트

댓글