arXiv논문2026. 06. 05. 13:47

F3-Tokenizer: 이해와 생성을 위한 오디오 오토인코더 잠재 변수(Latents) 제어

요약

F3-Tokenizer는 오디오의 이해와 생성을 동시에 지원하기 위해 설계된 새로운 오디오 토크나이저입니다. 노이즈 정규화 병목 구간과 표현 인코더를 결합하여, 재구성이 가능한 연속적 잠재 변수와 의미론적 고차원 표현을 모두 확보합니다.

핵심 포인트

이해와 생성을 동시에 지원하는 단일 오디오 토크나이저 구현
채널 정규화와 확률적 섭동을 통한 스케일 제어된 잠재 변수 생성
RQ-MTP 및 Frozen-LLM 감독을 통한 고차원 표현 학습
연속적 오디오 오토인코더의 잠재 변수 한계 극복

연속적 오디오 오토인코더(Continuous audio autoencoders)는 파형(Waveforms)을 잘 재구성하지만, 이해(Understanding)를 위한 구조가 약한 잠재 변수(Latents)를 생성하는 경우가 많습니다. 반면, 자기지도 학습 오디오 인코더(Self-supervised audio encoders)는 의미론(Semantics)을 포착하지만 직접적으로 디코딩(Decodable)할 수 없습니다. 이러한 불일치는 이해와 생성(Generation)을 모두 지원해야 하는 단일 오디오 토크나이저(Audio tokenizer)를 구현하는 데 어려움을 줍니다. 우리는 두 가지 구성 요소인 노이즈 정규화 오토인코더 병목 구간(Noise-regularized autoencoder bottleneck)과 잠재 변수 측 표현 인코더(Latent-side representation encoder)를 통해 연속적 오토인코더 잠재 변수를 이 설정에 맞게 조정합니다. 병목 구간은 KL 기반의 변분 학습(Variational training) 대신 채널 정규화(Channel normalization)와 확률적 섭동(Stochastic perturbation)을 사용하여, 재구성 및 자기회귀 생성(Autoregressive generation)을 위한 스케일 제어된 연속적 잠재 변수를 생성합니다. 표현 인코더는 RQ-MTP 및 동결된 LLM(Frozen-LLM) 감독 하에 동결된 오토인코더 잠재 변수를 사용하여 학습됩니다. 결과적으로 생성 대상으로서 정규화된 연속적 잠재 변수를 보존하는 동시에, 이해를 위한 고차원 표현을 제공하는 토크나이저를 구현합니다.

AI 자동 생성 콘텐츠

원문 바로가기

F3-Tokenizer: 이해와 생성을 위한 오디오 오토인코더 잠재 변수(Latents) 제어

요약

핵심 포인트

댓글