SAME: 의미론적으로 정렬된 음악 오토인코더 (Semantically-Aligned Music Autoencoder)
요약
SAME(Semantically-Aligned Music Autoencoder)은 스테레오 음악 및 오디오를 위해 설계된 새로운 오토인코더 모델입니다. 트랜스포머 기반 백본과 의미론적 정규화 기술을 결합하여 4096배의 높은 시간적 압축률을 달성하면서도 뛰어난 재구성 품질과 생성 성능을 유지합니다. 대형 모델인 SAME-L과 CPU 배포에 최적화된 SAME-S 두 가지 버전이 오픈 웨이트로 공개되었습니다.
핵심 포인트
- 4096배의 높은 시간적 압축률을 달성하여 계산 효율성 증대
- 트랜스포머 기반 백본과 의미론적 정규화, 위상 인식 재구성 손실 활용
- 재구성 품질과 다운스트림 생성 성능의 균형 유지
- SAME-L(대형) 및 SAME-S(CPU 최적화) 두 가지 오픈 웨이트 모델 제공
잠재 표현 (Latent representations)은 대부분의 현대 생성 모델 (Generative models)의 핵심입니다. 오디오 도메인에서 이러한 표현은 일반적으로 신경망 오디오 코덱 (Neural-audio-codec) 오토인코더 (Autoencoder)에 의해 생성됩니다. 본 연구에서는 스테레오 음악 및 일반 오디오를 위한 오토인코더인 SAME (Semantically-Aligned Music autoEncoder)를 소개합니다. SAME는 재구성 품질 (Reconstruction quality)과 다운스트림 생성 성능 (Downstream generative performance)을 유지하면서 4096$ imes$의 시간적 압축률 (Temporal compression ratio)을 달성합니다. 우리는 트랜스포머 기반 백본 (Transformer-based backbone)을 일련의 의미론적 정규화 (Semantic regularisation) 접근 방식, 위상 인식 재구성 손실 (Phase-aware reconstruction losses) 및 개선된 판별기 (Discriminator) 설계와 결합하여 이를 구현했습니다. 이 아키텍처는 높은 압축률과 잘 최적화된 트랜스포머 기본 요소 (Transformer primitives)에 대한 의존성을 통해 상당한 계산 비용 이점을 제공합니다. 두 가지 변형 (대형 모델인 SAME-L 및 CPU 배포가 가능한 SAME-S)이 오픈 웨이트 (Open-weights) 형태로 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기