arXiv논문2026. 06. 25. 11:26

번역 강화 음성 인코더 사전 학습이 Speech LLM에 영향을 미치는가?

요약

Speech LLM 구축 시 발생하는 음성 인코더와 LLM 간의 구조적 불일치를 해결하기 위한 연구입니다. 음성 번역 목적 함수를 사전 학습에 통합하여 언어 불가지론적 표현을 학습함으로써 교차 모달 통합 성능을 개선합니다.

핵심 포인트

음성 인코더와 LLM 사이의 구조적 불일치 문제 제기
음성 번역을 통한 언어 불가지론적 표현 학습 제안
번역 강화 사전 학습이 교차 모달 통합을 개선함을 입증
다운스트림 Speech LLM 작업에서 우수한 성능 확인

사전 학습된 음성 인코더(speech encoder)를 대규모 언어 모델(LLM)에 연결하는 것은 Speech LLM을 구축하기 위한 표준 아키텍처입니다. 그러나 인코더와 LLM 사이에는 구조적 불일치(structural misalignment)가 존재합니다. 자동 음성 인식(ASR) 기반의 인코더는 종종 별도의 언어별 공간(language-specific spaces)에서 표현(representations)을 생성하는 것과 달리, LLM은 통합된 언어 불가지론적 공간(language-agnostic space) 내에서 작동합니다. 인코더의 언어별 표현을 LLM의 공유 공간과 정렬하기 위한 메커니즘이 필요합니다. 우리는 음성 번역(speech translation)이 이를 달성하기 위한 원칙적인 방법을 제공한다고 주장합니다. 단일 언어 전사(monolingual transcription)와 달리, 번역은 모델이 서로 다른 언어를 연결하고 언어 불가지론적 표현을 학습할 것을 요구합니다. 우리는 음성 인코더 사전 학습에 번역 목적 함수(translation objectives)를 통합하는 것의 영향을 실험적으로 평가합니다. 우리의 결과는 번역 강화 사전 학습(translation-enhanced pre-training)이 교차 모달 통합(cross-modal integration)을 개선하며, 다운스트림 Speech LLM 작업 전반에서 우수한 성능을 이끌어낸다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

번역 강화 음성 인코더 사전 학습이 Speech LLM에 영향을 미치는가?

요약

핵심 포인트

댓글