arXiv논문2026. 06. 10. 11:17

ParaBridge: 음성 언어 모델(Speech Language Models)에서 준언어적 지각과 대화 행동 간의 간극 메우기

요약

ParaBridge는 음성 언어 모델(SLM)이 목소리 톤 등 준언어적 단서를 대화에 반영하도록 돕는 새로운 연구입니다. 온-정책 자기 증류(on-policy self-distillation)를 통해 모델이 별도의 지시 없이도 비어휘적 단서를 이해하고 적절한 대화 행동을 보이도록 학습시킵니다.

핵심 포인트

준언어적 지시 스캐폴드를 활용한 지각-행동 간극 해소
온-정책 자기 증류를 통한 안정적인 모델 행동 전환
외부 라벨 없이도 비어휘적 단서의 영향력 학습 가능
Qwen3-Omni-thinking 기반 VoxSafeBench 성능 대폭 향상
일반적인 추론 능력 보존 및 미학습 단서에 대한 일반화

음성은 단순히 단어 이상의 정보를 담고 있습니다. 아이의 목소리, 두려움에 찬 어조, 또는 시끄러운 배경음은 충분한 역량을 갖춘 음성 대화 어시스턴트라면 모두 서로 다른 답변을 이끌어내야 합니다. 현재의 음성 언어 모델 (Speech Language Models, SLMs)은 이러한 준언어적 (paralinguistic) 단서들을 인식할 수는 있지만, 개방형 대화 (open-ended dialogue)에서는 이를 무시하는 경우가 많습니다. 우리는 추론 (inference) 단계에서 간단한 준언어적 지시 스캐폴드 (paralinguistic instruction scaffold)를 사용하는 것만으로도 이러한 지각-행동 간의 간극을 좁힐 수 있음을 관찰하였으며, 이는 관련 단서들이 이미 모델 내에 잠재되어 있음을 시사합니다. 그러나 이러한 스캐폴드는 다회차 문맥 (multi-turn context)과 상충하는 지시 사항 하에서는 여전히 취약한 모습을 보입니다. 따라서 우리는 취약한 추론 시점의 스캐폴드를 안정적인 모델 행동으로 전환하는 온-정책 자기 증류 (on-policy self-distillation) 방법론인 extbf{ParaBridge}를 제안합니다. 학습 과정에서 스캐폴드는 오직 일시적인 특권적 관점 (privileged view)으로만 기능합니다. 스캐폴드가 없는 모델은 스스로 응답을 생성 (roll out)하는 반면, 스캐폴드가 있는 관점은 그 궤적을 따라 밀집된 전체 어휘 다음 토큰 타겟 (dense, full-vocabulary next-token targets)을 제공합니다. 이러한 감독 (supervision)은 정제된 대화, 인간의 라벨, 또는 외부 보상 모델 (reward models) 없이도 비어휘적 (non-lexical) 단서가 언제 답변에 영향을 미쳐야 하는지를 학습시킵니다. Qwen3-Omni-thinking에서 ParaBridge는 스캐폴드가 없는 상태의 VoxSafeBench SAR을 $14.6%$에서 $40.3%$로 높였으며, EchoMind 평균 평점을 $3.27$에서 $3.92$로 개선했습니다. 또한 MMAU-Pro, VoiceBench, GPQA 모두 기존 모델과 $0.4$ 포인트 이내의 차이를 유지하며 일반적인 능력을 보존합니다. 학습 분포를 넘어, ParaBridge는 학습되지 않은 준언어적 단서로 일반화되며, 안전 중심 학습에서 공감 중심 대화로 전이(transfer)될 수 있고, 다른 SLM 백본 (backbone)에서도 작동합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ParaBridge: 음성 언어 모델(Speech Language Models)에서 준언어적 지각과 대화 행동 간의 간극 메우기

요약

핵심 포인트

댓글