음성-텍스트 결합 능력의 해제: 지시어 튜닝(Instruction Tuning) 없는 지시 이행 음성 언어 모델
요약
SpeechCombine은 지시어 튜닝 없이 단 한 번의 음성 사전 학습만으로 지시 이행이 가능한 음성 언어 모델(SLM)을 제안합니다. 텍스트 LLM의 지식과 음성 도메인 능력을 결합하여 방대한 데이터 의존성을 줄이는 새로운 학습 방향을 제시합니다.
핵심 포인트
- 지시어 튜닝 없이 음성 사전 학습만으로 지시 이행 능력 확보
- 텍스트 LLM 가중치와 음성 적응 모델 가중치의 직접 결합 방식 제안
- 기존 텍스트 LLM의 지식 보존 및 음성 도메인으로의 효과적 전이
- 대규모 음성 데이터 합성 및 지시어 튜닝의 한계 극복
음성 언어 모델(SLM)을 위한 지시어 튜닝(Instruction tuning)은 텍스트 기반 대규모 언어 모델(LLM)보다 훨씬 더 까다로운데, 이는 텍스트 LLM이 지원하는 지시어 외에도 새로운 모달리티(Modality)와 광범위한 음성 특화 지시어를 학습해야 하기 때문입니다. 기존의 SLM 학습 방식은 대규모 음성 사전 학습(Speech pre-training) 및 지시어 튜닝(Instruction-tuning) 데이터셋을 합성함으로써 텍스트 LLM의 학습 패러다임을 대부분 복제합니다. 그러나 음성 시퀀스는 텍스트 시퀀스보다 현저히 길기 때문에 이러한 전략은 규모를 확장(Scale)하기 어렵습니다. 본 논문에서는 우리는 3만 시간의 데이터를 사용한 단 한 번의 음성 사전 학습(Speech pre-training)만을 사용하여, 지시어 튜닝(Instruction tuning) 없이 학습된 지시 이행 음성 언어 모델인 SpeechCombine을 제안합니다. 텍스트 LLM 베이스 모델에서 시작하여, 음성 발화에 대한 연속 사전 학습(Continuous pre-training)을 수행하여 음성에 적응된 모델을 얻은 다음, 이 모델의 가중치를 지시어 튜닝된 버전과 베이스 버전 사이의 텍스트 LLM 가중치 차이와 직접 결합합니다. 우리의 결과는 이 단순한 결합 전략이 기존 텍스트 LLM의 지식과 능력을 보존할 뿐만 아니라, 이를 음성 도메인으로 효과적으로 전이(Transfer)한다는 것을 보여줍니다. 이러한 발견은 방대한 음성 데이터에 대한 의존을 피하는 SLM 학습의 새로운 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기