arXiv논문2026. 06. 09. 11:51

텍스트만 있으면 충분한가? Speech LLM을 위한 보편적 정보 병목으로서의 텍스트

요약

음성 신호를 동결된 LLM에 통합할 때 발생하는 정보 손실 문제를 해결하기 위해 Convex Gate(C-Gate)를 제안합니다. C-Gate는 음성 표현을 LLM의 임베딩 매니폴드 내 볼록 조합으로 제한하여 연속적인 표현력과 모델 호환성을 동시에 확보합니다.

핵심 포인트

C-Gate를 통해 음성-to-LLM 인터페이스의 정보 병목 현상 해결
LibriSpeech WER을 최대 48.7% 개선하며 강력한 성능 입증
정보 전달의 핵심은 이산적 토큰이 아닌 임베딩 공간의 궤적임
연속적 표현력 유지와 사전 학습된 LLM과의 기하학적 정렬 달성

대규모 언어 모델 (LLMs)은 음성 이해를 위한 강력한 추론 백본 (reasoning backbone)을 제공하지만, 연속적인 음향 신호 (acoustic signals)를 동결된 (frozen) LLM에 통합하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 음성-to-LLM 인터페이스는 일반적으로 두 가지 극단적인 방식으로 작동합니다. 하나는 전사 (transcription)에는 유리하지만 준언어적 정보 (paralinguistic information)를 손실하는 거의 이산적인 (near-discrete) 토큰 정렬을 강제하는 방식이고, 다른 하나는 LLM의 입력 공간에서 벗어나 자기회귀 디코딩 (autoregressive decoding) 성능을 저하시킬 수 있는 제약 없는 연속적 표현 (unconstrained continuous representations)을 학습하는 방식입니다. 본 연구에서는 구조적인 볼록 껍질 (convex-hull) 제약을 통해 모든 음성 표현이 LLM의 입력 임베딩 매니폴드 (input embedding manifold) 내에 존재하도록 제한하는 음성-to-LLM 브릿지인 Convex Gate (C-Gate)를 제안합니다. 구체적으로, 각 프레임은 토큰 임베딩의 볼록 조합 (convex combination)으로 표현되어, 연속적인 표현력 (continuous expressivity)을 유지하면서도 사전 학습된 LLM과의 호환성을 보장합니다. 자동 음성 인식 (ASR) 및 감정 인식 (emotion recognition) 전반에 걸쳐 C-Gate는 강력한 공동 성능을 달성하였으며, LibriSpeech의 단어 오류율 (WER)을 상대적으로 최대 48.7% 개선하는 동시에 단일 작업 감정 정확도는 대등하거나 능가하는 결과를 보였습니다. 성능을 넘어, 우리의 분석은 핵심적인 통찰을 드러냅니다: 정보는 이산적인 토큰 정체성에 의해 전달되는 것이 아니라, 임베딩 공간에서의 시간 분해 궤적 (time-resolved trajectories)에 의해 전달된다는 점입니다. 인과적 개입 (Causal interventions)을 통해 궤적 구조와 사전 학습된 임베딩 매니폴드에 대한 정렬 모두 성능에 결정적임을 확인했습니다. 이러한 결과는 토큰의 이산성보다는 기하학적 구조 (geometry)가 음성-to-LLM 인터페이스의 근본적인 설계 요소임을 시사하며, 동결된 LLM에서 멀티모달 통합을 연구하기 위한 통제된 환경을 제공합니다. 재현을 위해 체크포인트, 샘플별 출력, 메커니즘 덤프 및 개입 스위트 (intervention suite)를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

텍스트만 있으면 충분한가? Speech LLM을 위한 보편적 정보 병목으로서의 텍스트

요약

핵심 포인트

댓글