USAD 2.0: 범용 오디오 이해를 위한 표현 증류 (Representation Distillation) 확장
요약
USAD 2.0은 SSL과 지도 학습 기반 파운데이션 모델의 지식을 통합한 범용 오디오 인코더입니다. 도메인 인식 증류와 2단계 지도 학습 증류를 통해 음악 도메인까지 범위를 확장하고 10억 파라미터 규모로 모델을 확장했습니다.
핵심 포인트
- SSL과 지도 학습 지식을 통합한 범용 오디오 인코더 제시
- 도메인 인식 증류를 통한 교사 모델 불일치 문제 해결
- 음악 도메인 확장 및 2단계 지도 학습 증류 도입
- 10억 파라미터 규모의 깊이 확장(Depth scaling) 적용
- 프로빙 및 LLM 기반 평가에서 SOTA 성능 달성
오디오 인코더 (Audio encoders)는 대규모 언어 모델 (LLMs)이 다양한 입력에 대해 단일 인코더에 점점 더 의존함에 따라 현대 오디오 애플리케이션에서 매우 중요해졌습니다. 자기지도 학습 (Self-supervised learning, SSL)은 음성이나 음악 전문가와 같은 강력한 도메인 특화 인코더를 만들어냈지만, USAD 및 SPEAR와 같은 다중 도메인 접근 방식은 범위와 평가 측면에서 여전히 제한적입니다. 최근 연구들은 또한 지도 학습 기반 인코더 (Supervised encoders)가 오디오 LLM과 더 잘 정렬된다는 점을 시사합니다. 본 논문에서는 SSL과 지도 학습 기반 파운데이션 모델 (Supervised foundation models) 양쪽의 지식을 통합하는 범용 인코더인 USAD 2.0을 제시합니다. USAD 2.0은 교사 모델 불일치 (Teacher mismatch) 문제를 해결하기 위해 도메인 인식 증류 (Domain-aware distillation)를 도입하고, 범위를 음악 도메인까지 확장하며, 다운스트림 (Downstream) 활용을 위한 2단계 지도 학습 증류 (Second-stage supervised distillation)를 추가합니다. 나아가 깊이 확장 (Depth scaling)을 통해 모델을 10억 개의 파라미터 규모로 확장합니다. 실험 결과, USAD 2.0은 프로빙 (Probing) 및 LLM 기반 평가 전반에 걸쳐 강력하거나 최첨단 (State-of-the-art) 성능을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기