arXiv논문2026. 06. 01. 12:36

UniAudio-Token: 일반 오디오 인식을 통한 의미론적 음성 토크나이저(Semantic Speech Tokenizer)의 강화

요약

UniAudio-Token은 기존 의미론적 음성 토크나이저의 음향적 정보 손실 문제를 해결하기 위해 제안된 프레임워크입니다. SAP와 SAE 기술을 통해 언어적 콘텐츠와 음향적 세부 사항을 동시에 보존하며, 고충실도 음성 생성과 범용 오디오 인식을 동시에 달성합니다.

핵심 포인트

의미론적-음향적 프리미티브(SAP)를 통한 구조적 감독 제공
SAE 메커니즘으로 미세한 음향적 세부 사항 복원
음성 생성 품질 유지 및 범용 오디오 표현 학습
기존 단일 코드북 베이스라인 대비 우수한 성능 입증

의미론적 음성 토크나이저(Semantic speech tokenizers)는 컴팩트한 단일 코드북(single-codebook) 설계와 강력한 언어적 정렬(linguistic alignment) 덕분에 Audio-LLM을 위한 널리 사용되는 인터페이스가 되었습니다. 그러나 언어적 추상화(linguistic abstraction)에 집중하는 특성은 음향적 맹목(acoustic blindness)을 유발하여, 음성 중심의 작업 이외의 적용 가능성을 제한합니다. 우리는 음성 능력을 저해하지 않으면서 의미론적 토크나이저에 일반적인 오디오 인식(general audio perception) 능력을 부여하는 프레임워크인 UniAudio-Token을 제안합니다. UniAudio-Token은 의미론적 패러다임을 변경하는 대신, 두 가지 핵심 혁신을 통해 정보 손실을 완화합니다: (1) 의미론적-음향적 프리미티브(Semantic-Acoustic Primitives, SAP)는 오디오를 언어적 콘텐츠, 음성 속성(vocal attributes), 그리고 청각적 장면 프리미티브(auditory-scene primitives)로 분해하여 구조화된 감독(structured supervision)을 제공합니다; (2) 의미론적-음향적 평형(Semantic-Acoustic Equilibrium, SAE)은 얕은 계층(shallow layers)으로부터 미세한 음향적 세부 사항을 적응적으로 복원하는 콘텐츠 인식 게이팅 메커니즘(content-aware gating mechanism)을 도입합니다. 광범위한 평가 결과, UniAudio-Token은 고충실도(high-fidelity) 음성 생성을 유지하면서도 포괄적인 범용 표현(universal representations)을 학습함을 보여주었습니다. 다운스트림 LLM과 통합되었을 때, 이는 이해 및 생성 작업 모두에서 모든 단일 코드북 베이스라인 토크나이저를 능가하며, 효과적인 통합 오디오 인터페이스 역할을 수행합니다. 우리는 훈련 및 추론 스크립트를 포함한 모든 코드와 모델 체크포인트를 https://github.com/Tencent/Universal_Audio_Tokenizer에 공개적으로 배포합니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniAudio-Token: 일반 오디오 인식을 통한 의미론적 음성 토크나이저(Semantic Speech Tokenizer)의 강화

요약

핵심 포인트

댓글