LiveBand: 오디오 도메인에서의 실시간 반주 생성
요약
LiveBand는 실시간 오디오 입력에 맞춰 고충실도 음악 반주를 생성하는 시스템입니다. 인과적 트랜스포머와 오디오 오토인코더를 활용하여 미래 데이터에 대한 접근 없이도 실시간 스트리밍 생성을 구현했습니다.
핵심 포인트
- 인과적 제약을 준수하는 실시간 오디오 반주 생성
- 적대적 시퀀스 수준 감독을 통한 잠재 공간 학습
- 노출 편향(exposure bias)을 제거한 학습 및 추론 설계
- 소비자용 하드웨어에서 룩어헤드 없는 실시간 스트리밍 가능
우리는 엄격한 인과적 제약(causal constraints)을 준수하면서 실시간 오디오 입력에 대해 고충실도(high-fidelity) 음악 반주를 생성하는 실시간 시스템인 LiveBand를 선보입니다. 우리의 방법은 판별기(discriminator)로부터의 적대적 시퀀스 수준 감독(adversarial sequence-level supervision)을 사용하여, 사전 학습된 인과적 오디오 오토인코더(causal audio autoencoder)의 연속적인 잠재 공간(continuous latent space) 내에서 인과적 트랜스포머 생성기(causal transformer generator)를 학습시킵니다. 각 타임스텝(timestep)에서 생성기는 인과적으로 사용 가능한 믹스 컨텍스트(mix context)와 가우시안 노이즈(Gaussian noise)만을 수신하며, 미래의 믹스 프레임이나 정답 타겟 잠재값(ground-truth target latents)에 대한 접근 없이 반주 잠재값(accompaniment latents)을 예측합니다. 학습은 인과적 마스킹(causal masking) 하에 단일 병렬 순전파(parallel forward pass)로 수행되는 반면, 스트리밍 추론(streaming inference)은 롤링 어텐션 상태(rolling attention state)와 함께 자기회귀적(autoregressively)으로 진행됩니다. 모델의 학습 및 추론 계산은 설계 단계에서 일치하도록 구성되어, 티처 포싱(teacher forcing)과 그와 관련된 노출 편향(exposure bias)을 제거합니다. 다중 악기 음악 반주 벤치마크에서 LiveBand는 오디오 품질, 비트 정렬(beat alignment), 믹스 준수(mix adherence)의 객관적 지표에서 이전 연구보다 향상된 성능을 보였으며, 소비자용 하드웨어에서 미래를 내다보는 룩어헤드(lookahead) 없이 실시간 스트리밍 생성을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기