arXiv논문2026. 06. 15. 08:20

Interleaved Stacking을 이용한 빠른 음성 기초 모델 (Speech Foundation Model) 증류

요약

음성 기초 모델(SFM)의 증류 과정을 가속화하기 위한 새로운 스태킹 방법인 'Interleaved Stacking'을 제안합니다. 기존 스태킹 방식의 성능 저하 문제를 해결하기 위해 레이어 위치를 일관되게 유지하며, SUPERB 데이터셋을 통해 그 효과를 검증했습니다.

핵심 포인트

SFM 증류 시 학습 효율성을 높이기 위한 스태킹 기법 탐구
레이어 위치를 일관되게 유지하는 Interleaved Stacking 제안
기존 스태킹 방식의 성능 저하 문제 해결
SUPERB 데이터셋을 통한 제안 방법의 유효성 검증

대규모 음성 기초 모델 (Speech Foundation Model, SFM)을 효율적인 학생 모델 (student model)로 증류 (Distilling)하는 것은 저자원 환경에 성공적으로 적용되어 왔습니다. 증류는 추론 지연 시간 (inference latency)을 줄여주지만, 추가적인 학생 모델 학습이 필요합니다. 그러나 SFM 증류의 학습 효율성은 여전히 충분히 연구되지 않았습니다. 본 연구에서는 모델 배포를 가속화하기 위해 SFM 증류의 학습 가속화를 탐구합니다. 우리는 목표 모델 깊이에 도달할 때까지 학습을 통해 모델의 깊이를 점진적으로 증가시키는 스태킹 (stacking)의 잠재력을 조사합니다. 기존의 스태킹 방법들은 학습 속도를 향상시키지만, 성능 저하를 겪는 문제가 있습니다. 이러한 한계를 해결하기 위해, 우리는 스태킹 과정 전반에 걸쳐 레이어 위치를 일관되게 유지하는 새로운 스태킹 방법인 인터리브드 스태킹 (interleaved stacking)을 제안합니다. 이러한 특성은 각 레이어가 고유한 레이어별 지식을 인코딩하는 SFM에서 특히 중요합니다. 우리는 SUPERB 데이터셋을 통해 제안된 방법의 효과를 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Interleaved Stacking을 이용한 빠른 음성 기초 모델 (Speech Foundation Model) 증류

요약

핵심 포인트

댓글