음성-텍스트 결합 능력의 해제: 지시어 튜닝(Instruction Tuning) 없는 지시 이행 음성 언어 모델

음성 언어 모델(SLM)을 위한 지시어 튜닝(Instruction tuning)은 텍스트 기반 대규모 언어 모델(LLM)보다 훨씬 더 까다로운데, 이는 텍스트 LLM이 지원하는 지시어 외에도 새로운 모달리티(Modality)와 광범위한 음성 특화 지시어를 학습해야 하기 때문입니다. 기존의 SLM 학습 방식은 대규모 음성 사전 학습(Speech pre-training) 및 지시어 튜닝(Instruction-tuning) 데이터셋을 합성함으로써 텍스트 LLM의 학습 패러다임을 대부분 복제합니다. 그러나 음성 시퀀스는 텍스트 시퀀스보다 현저히 길기 때문에 이러한 전략은 규모를 확장(Scale)하기 어렵습니다. 본 논문에서는 우리는 3만 시간의 데이터를 사용한 단 한 번의 음성 사전 학습(Speech pre-training)만을 사용하여, 지시어 튜닝(Instruction tuning) 없이 학습된 지시 이행 음성 언어 모델인 SpeechCombine을 제안합니다. 텍스트 LLM 베이스 모델에서 시작하여, 음성 발화에 대한 연속 사전 학습(Continuous pre-training)을 수행하여 음성에 적응된 모델을 얻은 다음, 이 모델의 가중치를 지시어 튜닝된 버전과 베이스 버전 사이의 텍스트 LLM 가중치 차이와 직접 결합합니다. 우리의 결과는 이 단순한 결합 전략이 기존 텍스트 LLM의 지식과 능력을 보존할 뿐만 아니라, 이를 음성 도메인으로 효과적으로 전이(Transfer)한다는 것을 보여줍니다. 이러한 발견은 방대한 음성 데이터에 대한 의존을 피하는 SLM 학습의 새로운 방향을 제시합니다.

Insights

음성-텍스트 결합 능력의 해제: 지시어 튜닝(Instruction Tuning) 없는 지시 이행 음성 언어 모델

요약

핵심 포인트

댓글

[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa

AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

[audio.cpp] GGML의 소리 — C++/GGML 네이티브 ACE-Step, Stable Audio, HeartMuLa

AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델