arXiv논문2026. 06. 23. 12:15

인터리브드 음성 언어 모델(Interleaved Speech Language Models)은 잠재적으로 텍스트로 작동한다

요약

인터리브드 음성 언어 모델(SLM)이 음성 토큰과 텍스트 토큰을 처리할 때 발생하는 내부 메커니즘을 분석합니다. 연구 결과, 모델이 중간 레이어에서 암시적 전사(implicit transcription) 과정을 거쳐 텍스트 공간에서 다음 단어를 예측한다는 사실을 밝혀냈습니다.

핵심 포인트

음성-텍스트 인터리빙 모델의 잠재 공간 상호작용 분석
중간 레이어에서 암시적 전사(implicit transcription) 단계 확인
데이터의 최대 77%에서 텍스트 토큰 디코딩 가능성 발견
텍스트 언어 모델 초기화가 음성-텍스트 관계에 미치는 영향 규명

음성 언어 모델 (SLMs)은 텍스트 데이터와 사전 학습된 텍스트 언어 모델 (LMs)을 통합하는 일반적인 패러다임과 함께 광범위하게 연구되어 왔습니다. 주요 접근 방식 중 하나는 음성-텍스트 인터리빙 (speech-text interleaving)으로, 모델이 음성 토큰과 텍스트 토큰을 모두 포함하는 시퀀스에 대해 학습하여 음성 전용 능력까지 향상시키는 것을 목표로 합니다. 그러나 모델의 잠재 공간 (latent space)에서 이 두 양상 (modalities)이 상호작용하는 방식은 여전히 불분명합니다. 본 연구에서는 이러한 통찰을 제공하기 위해 로짓 렌즈 (logit lens)의 관점에서 다양한 모델 제품군 및 크기의 인터리브드 음성-텍스트 언어 모델 (LMs)을 분석합니다. 우리는 이러한 모델들이 음성 인식 (speech recognition)을 위해 학습되지 않았음에도 불구하고, 중간 레이어 (intermediate layers)에서 발화된 단어의 텍스트 토큰이 디코딩 가능해지는 암시적 전사 (implicit transcription) 단계를 거친다는 것을 밝혀냈습니다. 단어의 전사는 데이터의 최대 77%에 대해 최상위 후보 단어 중 하나로 나타납니다. 이 단계 이후, 모델은 음성 도메인으로 다시 변환하기 전에 텍스트 공간에서 다음 단어를 예측하는 과정을 진행합니다. 마지막으로 우리는 인터리빙 데이터의 역할과 텍스트 언어 모델 (LMs)로부터 초기화하는 것이 이러한 동작을 유도하는 방식, 그리고 이것이 발화된 지식 능력과 어떻게 상관관계가 있는지를 분석합니다. 우리의 분석은 음성 및 텍스트 양상 사이의 관계를 뒷받침하는 내부 메커니즘을 규명하며, SLM 최적화의 방향을 제시할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인터리브드 음성 언어 모델(Interleaved Speech Language Models)은 잠재적으로 텍스트로 작동한다

요약

핵심 포인트

댓글