arXiv논문2026. 05. 19. 17:27

SAME: 의미론적으로 정렬된 음악 오토인코더 (Semantically-Aligned Music Autoencoder)

요약

SAME(Semantically-Aligned Music Autoencoder)은 스테레오 음악 및 오디오를 위해 설계된 새로운 오토인코더 모델입니다. 트랜스포머 기반 백본과 의미론적 정규화 기술을 결합하여 4096배의 높은 시간적 압축률을 달성하면서도 뛰어난 재구성 품질과 생성 성능을 유지합니다. 대형 모델인 SAME-L과 CPU 배포에 최적화된 SAME-S 두 가지 버전이 오픈 웨이트로 공개되었습니다.

핵심 포인트

4096배의 높은 시간적 압축률을 달성하여 계산 효율성 증대
트랜스포머 기반 백본과 의미론적 정규화, 위상 인식 재구성 손실 활용
재구성 품질과 다운스트림 생성 성능의 균형 유지
SAME-L(대형) 및 SAME-S(CPU 최적화) 두 가지 오픈 웨이트 모델 제공

잠재 표현 (Latent representations)은 대부분의 현대 생성 모델 (Generative models)의 핵심입니다. 오디오 도메인에서 이러한 표현은 일반적으로 신경망 오디오 코덱 (Neural-audio-codec) 오토인코더 (Autoencoder)에 의해 생성됩니다. 본 연구에서는 스테레오 음악 및 일반 오디오를 위한 오토인코더인 SAME (Semantically-Aligned Music autoEncoder)를 소개합니다. SAME는 재구성 품질 (Reconstruction quality)과 다운스트림 생성 성능 (Downstream generative performance)을 유지하면서 4096$ imes$의 시간적 압축률 (Temporal compression ratio)을 달성합니다. 우리는 트랜스포머 기반 백본 (Transformer-based backbone)을 일련의 의미론적 정규화 (Semantic regularisation) 접근 방식, 위상 인식 재구성 손실 (Phase-aware reconstruction losses) 및 개선된 판별기 (Discriminator) 설계와 결합하여 이를 구현했습니다. 이 아키텍처는 높은 압축률과 잘 최적화된 트랜스포머 기본 요소 (Transformer primitives)에 대한 의존성을 통해 상당한 계산 비용 이점을 제공합니다. 두 가지 변형 (대형 모델인 SAME-L 및 CPU 배포가 가능한 SAME-S)이 오픈 웨이트 (Open-weights) 형태로 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAME: 의미론적으로 정렬된 음악 오토인코더 (Semantically-Aligned Music Autoencoder)

요약

핵심 포인트

댓글