arXiv논문2026. 06. 11. 16:53

어떤 음성 표현이 텍스트 기반 추론에 더 적합한가? 프레임 속도 및 표현을 이용한 음성-텍스트 정렬 연구

요약

본 연구는 음성 대화 모델이 텍스트 LLM 백본에서 시작할 때 발생하는 성능 저하의 원인을 시간적 해상도 불일치로 분석했습니다. 이를 해결하기 위해 프레임 속도를 변화시키고, 분해된 FSQ와 비-자기회귀 오디오 LM 헤드를 도입하여 효율적인 예측 능력을 유지하면서 용량을 확장하는 방법을 제시했습니다.

핵심 포인트

음성 토큰의 시간적 중복성이 텍스트 추론 역학을 약화시키는 원인 분석
분해된 FSQ와 비-자기회귀 오디오 LM 헤드를 도입하여 효율적인 예측 능력 확보
프레임 속도 및 정렬 깊이 변화를 통해 음성 QA에 최적의 영역(4.17 Hz) 발견

음성 대화 모델은 일반적으로 텍스트 LLM 백본에서 시작하지만, 추론 과정에서 텍스트 대신 음성에 조건화될 경우 성능이 저하되는 경우가 많습니다. 우리는 이러한 모달리티 격차의 일부가 시간적 해상도 불일치(temporal-granularity mismatch) 때문이라고 생각합니다. 즉, 음성 토큰은 매칭된 의미를 가진 텍스트에 비해 시간적으로 중복성이 높고 훨씬 길어서, 토큰당 의미 밀도를 희석시키고 텍스트 고유의 추론 역학을 약화시킵니다. 우리는 음성 토큰 설계를 표현 선택 문제로 보고, 고정된 LLM 백본과 일정한 정보율 하에서 프레임 속도(frame rates)를 변화시키며 연구했습니다. 낮은 프레임 속도를 실현하기 위해, 우리는 분해된 FSQ와 경량의 비-자기회귀 오디오 LM 헤드(non-autoregressive audio LM head)를 도입하여, 효율적인 예측 능력을 손상시키지 않으면서 용량을 거의 300 bits/frame까지 확장할 수 있게 했습니다. 병목 현상이 제거되자, 우리는 프레임 속도($50
ightarrow 2.08$ Hz)와 정렬 깊이(alignment depth)를 변화시켰고, 중간 계층 표현 정렬을 사용했을 때 4.17 Hz에서 음성 QA에 일관된 최적 영역을 관찰했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

어떤 음성 표현이 텍스트 기반 추론에 더 적합한가? 프레임 속도 및 표현을 이용한 음성-텍스트 정렬 연구

요약

핵심 포인트

댓글