F3-Tokenizer: 이해와 생성을 위한 오디오 오토인코더 잠재 변수(Latents) 제어
요약
F3-Tokenizer는 오디오의 이해와 생성을 동시에 지원하기 위해 설계된 새로운 오디오 토크나이저입니다. 노이즈 정규화 병목 구간과 표현 인코더를 결합하여, 재구성이 가능한 연속적 잠재 변수와 의미론적 고차원 표현을 모두 확보합니다.
핵심 포인트
- 이해와 생성을 동시에 지원하는 단일 오디오 토크나이저 구현
- 채널 정규화와 확률적 섭동을 통한 스케일 제어된 잠재 변수 생성
- RQ-MTP 및 Frozen-LLM 감독을 통한 고차원 표현 학습
- 연속적 오디오 오토인코더의 잠재 변수 한계 극복
연속적 오디오 오토인코더(Continuous audio autoencoders)는 파형(Waveforms)을 잘 재구성하지만, 이해(Understanding)를 위한 구조가 약한 잠재 변수(Latents)를 생성하는 경우가 많습니다. 반면, 자기지도 학습 오디오 인코더(Self-supervised audio encoders)는 의미론(Semantics)을 포착하지만 직접적으로 디코딩(Decodable)할 수 없습니다. 이러한 불일치는 이해와 생성(Generation)을 모두 지원해야 하는 단일 오디오 토크나이저(Audio tokenizer)를 구현하는 데 어려움을 줍니다. 우리는 두 가지 구성 요소인 노이즈 정규화 오토인코더 병목 구간(Noise-regularized autoencoder bottleneck)과 잠재 변수 측 표현 인코더(Latent-side representation encoder)를 통해 연속적 오토인코더 잠재 변수를 이 설정에 맞게 조정합니다. 병목 구간은 KL 기반의 변분 학습(Variational training) 대신 채널 정규화(Channel normalization)와 확률적 섭동(Stochastic perturbation)을 사용하여, 재구성 및 자기회귀 생성(Autoregressive generation)을 위한 스케일 제어된 연속적 잠재 변수를 생성합니다. 표현 인코더는 RQ-MTP 및 동결된 LLM(Frozen-LLM) 감독 하에 동결된 오토인코더 잠재 변수를 사용하여 학습됩니다. 결과적으로 생성 대상으로서 정규화된 연속적 잠재 변수를 보존하는 동시에, 이해를 위한 고차원 표현을 제공하는 토크나이저를 구현합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기